作者:Jason Brownlee
翻译:梁傅淇
本文长度为1500字,建议阅读3分钟
本文提供了七个不同分类的自然语言处理小型标准数据集的下载链接,对于有志于练习自然语言处理的新手而言,是极有帮助的资源。
在你刚开始入手自然语言处理任务时,你需要数据集来练习。
最好是使用小型数据集,这样你可以快速下载,也不用花费很长的时间来调试模型。同时,使用被广泛使用和了解的标准数据集也是有所帮助的,你可以用你的结果来做比较,看一下是否有所进步。
在这篇博文中,你会找到一系列标准数据集来开始你的深度学习之旅。
总览
这篇博文被分成七个部分,它们是:
1. 文本分类(Text Classification)
2. 语言模型(Language Modeling)
3. 图像字幕(Image Captioning)
4. 机器翻译(Machine Translation)
5. 问答系统(Question Answering)
6. 语音识别(Speech Recognition)
7. 自动文摘(Document Summarization)
我已经尝试提供一系列被广泛使用于学术论文且规模适中的数据集。
几乎所有的数据集都是公开免费下载的。
如果你最喜欢的数据集没有被列出来,又或者你认为你所了解的更好的数据集应该被列出来的话,请在评论里告诉我。
我们开始吧。
1. 文本分类(Text Classification)
文本分类指的是标记句子或者文档,比如说垃圾邮件分类和情感分析。
以下是一些对于新手而言非常棒的文本分类数据集:
Reuters Newswire Topic Classification(Reuters-21578)(http://kdd.ics.uci.edu/databases/reuters21578/reuters21578.html)。
一系列1987年在路透上发布的按分类索引的文档。同样可以看RCV1,RCV2,以及TRC2
(http://trec.nist.gov/data/reuters/reuters.html)。
IMDB Movie Review Sentiment Classification (Stanford)(http://ai.stanford.edu/~amaas/data/sentiment/c)。
一系列从网站imdb.com上摘取的电影评论以及他们的积极或消极的情感。
News Group Movie Review Sentiment Classification (cornell)(http://www.cs.cornell.edu/people/pabo/movie-review-data/)。
更多的信息,可以从这篇博文中获取:Datasets for single-label text categorization
(http://