NLP任务一些常用的数据集集锦

萱仔学习自我记录

于 2024-09-28 23:57:48 发布

阅读量372

点赞数 12

分类专栏：萱仔NLP集锦文章标签：自然语言处理人工智能

本文链接：https://blog.csdn.net/qq_44117805/article/details/142624224

版权

萱仔NLP集锦专栏收录该内容

3 篇文章 0 订阅

订阅专栏

1. 文本分类

数据集: AG News

下载链接: AG News Dataset
格式: 每个样本包含新闻文本及其对应的类别标签。
1. AG News

背景:
AG News是一个用于文本分类的广泛使用数据集，主要用于新闻分类任务。该数据集由四个类别组成：世界、体育、商业和科技。

内容：
- 类别: World, Sports, Business, Science/Technology
- 样本数量: 120,000条新闻。

{
    "title": "China's economy grows at 6.9% in Q4",
    "description": "China's economy grew by 6.9% in the last quarter...",
    "label": "World"
}

2. 命名实体识别（NER）

数据集: CoNLL 2003 NER

下载链接: CoNLL 2003 Dataset
格式: 每个单词及其对应的实体标签，便于处理NER任务。
背景:
CoNLL 2003是一个标准的数据集，用于命名实体识别任务，包含对新闻文章中人名、地点和组织的标注。

内容:
标签: B-PER (人名), B-LOC (地点), B-ORG (组织), O (其他)
样本数量: 包含数千个标注句子。

EU B-ORG
rejects O
German B-MISC
calls O
for O
more O
action O
.

3. 问答（QA）

数据集: SQuAD Mini

下载链接: SQuAD Dataset
说明: SQuAD Mini是一个小规模的子集，适合快速实验。
格式: 包含问题、上下文和答案。
背景:
SQuAD是一个用于问答系统的热门数据集，包含大量的问答对，旨在促进自然语言处理中的问答研究。

内容:
问题: 针对给定上下文生成的问题。
上下文: 提供问题答案的文本片段。
答案: 在上下文中定位的答案。

{
    "question": "What is the capital of France?",
    "context": "Paris is the capital of France.",
    "answer": "Paris"
}

4. 文本生成

数据集: Shakespeare Dataset

下载链接: Shakespeare Text
格式: 纯文本文件，包含莎士比亚的作品，适合文本生成任务。
背景:
Shakespeare文本数据集包含莎士比亚的作品，常用于文本生成任务，尤其是生成与莎士比亚风格相似的文本。

内容:

纯文本格式，包含多个故事、剧本等。

Once upon a time, there was a princess who lived in a castle. 
She loved to explore the nearby forest.

5. 文本蕴涵（NLI）

数据集: SNLI Mini

下载链接: SNLI Dataset
说明: SNLI有一个小型子集，适合快速测试。
格式: 包含前提、假设和对应标签。
背景:
SNLI是一个用于文本蕴涵任务的标准数据集，旨在研究句子之间的关系，如蕴涵、对立或中立。

内容:

关系类型: Entailment, Contradiction, Neutral
样本数量: 包含超过57,000个句子对。

{
    "premise": "A man is playing a guitar.",
    "hypothesis": "A man is making music.",
    "label": "entailment"
}

6. 机器翻译

数据集: Multi30k

下载链接: Multi30k Dataset
格式: 图像描述的文本和翻译文本。
背景:
Multi30k是一个用于机器翻译的多语言数据集，提供图像的描述文本，并翻译为多种语言。

内容:

图像描述和其对应的翻译文本。

English: "A person is riding a horse."
German: "Eine Person reitet ein Pferd."

7. 对话系统

数据集: Persona-Chat

下载链接: Persona-Chat Dataset
格式: 包含对话的逐句内容。
背景:
Persona-Chat数据集是为了训练对话系统而设计的，包含了基于特定个性生成的对话。

内容:

每个对话由多轮交互组成，包含用户输入和系统响应。

{
    "dialogue": [
        "Hi! How are you?",
        "I'm good, thank you! And you?"
    ],
    "persona": [
        "I love traveling.",
        "I'm a vegetarian."
    ]
}

8. 情感分析

数据集: Sentiment140 Mini

下载链接: Sentiment140 Dataset
说明: 可以下载较小的子集用于情感分析。
格式: 包含推文ID、情感标签和文本内容。
背景:
Sentiment140是一个用于情感分析的Twitter数据集，包含从推特中提取的文本和情感标签。

内容:

情感标签: 0 (负面), 4 (正面)
样本数量: 包含160万条推文。

"tweet_id","sentiment","text"
"1234567890","0","I love this product!"
"1234567891","4","This is the worst experience ever."