NarrativeQA 开源项目使用教程

谢贝泰Neville

于 2024-08-15 10:16:02 发布

阅读量532

点赞数 25

本文链接：https://blog.csdn.net/gitblog_00668/article/details/141214797

版权

NarrativeQA 开源项目使用教程

narrativeqaThis repository contains the NarrativeQA dataset. It includes the list of documents with Wikipedia summaries, links to full stories, and questions and answers.项目地址:https://gitcode.com/gh_mirrors/na/narrativeqa

1. 项目的目录结构及介绍

NarrativeQA 项目的目录结构如下：

narrativeqa/
├── documents.csv
├── qaps.csv
├── third_party/
│   └── wikipedia/
│       └── summaries.csv
├── download_stories.sh
├── compare.sh
├── LICENSE
├── README.md
└── ...

目录结构介绍

documents.csv: 包含文档的详细信息，如 document_id, kind, story_url, story_file_size, wiki_url, wiki_title, story_word_count, story_start, story_end。
qaps.csv: 包含问题和答案的详细信息，如 document_id, question, answer1, answer2, question_tokenized, answer1_tokenized, answer2_tokenized。
third_party/wikipedia/summaries.csv: 包含来自 Wikipedia 的摘要信息，如 document_id, summary, summary_tokenized。
download_stories.sh: 用于下载故事的脚本。
compare.sh: 用于比较下载的故事文件大小与文档中记录的大小的脚本。
LICENSE: 项目的许可证文件。
README.md: 项目的说明文档。

2. 项目的启动文件介绍

NarrativeQA 项目没有明确的启动文件，因为它主要是一个数据集，而不是一个可执行的应用程序。用户通常会使用提供的 CSV 文件和脚本来处理数据。

3. 项目的配置文件介绍

NarrativeQA 项目没有传统的配置文件，因为它主要是一个数据集。用户可以根据需要使用提供的 CSV 文件和脚本来处理数据。

使用示例

用户可以通过以下步骤来使用 NarrativeQA 数据集：

下载故事文件:
```
./download_stories.sh
```
比较下载的故事文件大小:
```
./compare.sh
```

读取和处理数据:

import pandas as pd

# 读取文档信息
documents = pd.read_csv('documents.csv')
print(documents.head())

# 读取问题和答案信息
qaps = pd.read_csv('qaps.csv')
print(qaps.head())

# 读取 Wikipedia 摘要信息
summaries = pd.read_csv('third_party/wikipedia/summaries.csv')
print(summaries.head())

通过以上步骤，用户可以开始使用 NarrativeQA 数据集进行阅读理解任务的研究和开发。