入门自然语言处理数据集

最新推荐文章于 2024-08-19 14:26:44 发布

coderpai

最新推荐文章于 2024-08-19 14:26:44 发布

阅读量3.9k

点赞数 2

分类专栏： NLP 文章标签： nlp

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/CoderPai/article/details/80358383

版权

NLP 专栏收录该内容

24 篇文章 4 订阅

订阅专栏

作者：chen_h
微信号 & QQ：862251340
微信公众号：coderpai

在开始深入的学习自然语言处理任务时，我们需要准备一些数据集用来训练自己的算法。

在选择数据集上面，你最好使用可以快速下载的小的数据集，这种数据不用花太多的时间来训练模型。此外，你也可以使用一些标准的数据集或者被广泛使用的数据集，这样你可以把你的测试结果和别人的结果进行对比，以此来看是否取得进展。

在这篇文章中，我们将准备一套标准数据集可以用于你大部分的自然语言处理任务，在你学习深度学习的过程中肯定能用的到。

概要介绍

这篇文章被分为 7 个部分，具体如下：

文本分类
语言模型
图像语义
机器翻译
问答系统
语音识别
文本摘要

我试图在这里提供一个在学术界受欢迎的数据集，因为这样你就可以和别人的实验结果进行对比。

文中几乎所有的数据集都可以免费下载。

如果你认为你最喜欢的数据集没有被列出来，或者你有更好的数据集，请在下面的评论中让我知道。

让我们开始吧。

1. 文本分类

文本分类是指文件标签化，比如电子邮件分类和情感分类。

以下是一些好的初学者文本分类数据集。

路透社新闻稿主题分类（Reuters-21578），这是路透社在 1982 年整理的一系列按照新闻主题归类的数据，另外你也可以参考 RCV1，RCV2 和 TRC2
IMDB 电影评论情感分类（斯坦福）。这是一个从 imdb.com 网站收集的电影评论的数据集，评论数据分为正向和负向。
新闻评论情感分类数据集（康奈尔）。这是一个从 imdb.com 网站收集的电影评论数据集，评论数据分为积极地和消极地。

更多的数据集，你可以查看这个博客。

2. 语言模型

语言模型就是利用一个统计模型或者别的模型，来预测一句话的下一个单词。它在语音识别和机器翻译等任务中非常有用。

下面是一些比较入门的语言模型的数据集：

古腾堡项目（Gutenberg），是一个大量免费书籍的集合，可以用纯文本格式做各种语言的检索。

还有一些更加正式的语料库，如下：

布朗大学现代美式英语标准语料库，里面包含一大堆英文单词。
Google 十亿词库。

3. 图像语义

图像语义是对给定的图像生成文本描述的任务。

以下是一些比较好的初学者数据集：

COCO。收集超过 12 万张图片与描述。
Flickr 8K。从 flickr.com 网站拍摄的 8000 张图片与描述。
Flickr 30K。从 flickr.com 网站拍摄的 3 万张图片与描述。

更多信息请看：

图像字幕数据集，2016

4. 机器翻译

机器翻译是将文本从一种语言翻译成另一种语言的任务。

以下是一些比较初级的机器翻译数据集。

加拿大第 36 届议会的国会议员。这个数据集是成对的英文和法文。
欧洲议会诉讼语料库 1996 - 2011。里面包含整套的欧洲语言数据。

这里还有大量的用于机器翻译挑战的标准数据集，如下：

统计机器翻译

5. 问答系统

问答系统是一个比较有意思的任务，给定一个句子或者文本，然后生成或者从数据库中挑选一个句子（文本）作为输出。

以下是一些比较好的初学问答数据集。

斯坦福问答数据集（SQuAD）。维基百科的问答数据。
Deepmind 问答数据库。关于新闻文章的每日问答数据。
亚马逊问答数据。有关亚马逊产品的问答数据。

更多的有关数据，请参考这个文章：

数据集：如何获取 Quora 或者 Yahoo Answers 或者 Stack Overflow 等语料库来分析问答质量？

6. 语音识别

语音识别是将口语的音频信息转换为文本数据。

以下是一些比较适合初学的语音识别数据集。

TIMIT 声音连续语音语料库。这个数据集不是免费的，但是被广泛的使用。这是美国英语口语以及相关转录。
VoxForge。这是一个语音识别的开源数据库。
LibriSpeech ASR语料库。这是一个从 LibriVox 中收集的大量有声读物。

7. 文本摘要

文本摘要是为更大的文本数据创建一个简短并且高度概括的描述任务。

以下是一些比较好的文本摘要数据集。

法律案件报告数据集。这个数据集收集了 4000 个法律案件及其总结。
TIPSTER 会议总结语料库。这个语料库收集了近 200 份文件及其摘要。
英语新闻文本的 AQUAINT 语料库。这个语料库不免费，但是被广泛的使用。这是一个新闻文章摘要语料库。

更多信息可以查看下面的文章：

深入阅读

如果你希望更加的深入分析数据，那么下面的提供的数据集列表是非常有用的。

来源：Datasets for Natural Language Processing

关注

2
点赞
踩
20

收藏

觉得还不错? 一键收藏
2
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。