自然语言处理数据集免费资源开放（附学习资料）

最新推荐文章于 2024-08-19 14:26:44 发布

数据派THU

最新推荐文章于 2024-08-19 14:26:44 发布

阅读量4.8k

点赞数 7

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/tmb8z9vdm66wh68vx1/article/details/78153519

版权

本文分享了多个自然语言处理领域的免费数据集资源，涵盖了文本分类、情感分析、机器翻译等多个方向，并附带相关学习资料，帮助读者深入理解和实践NLP技术。

摘要由CSDN通过智能技术生成

作者：Jason Brownlee

翻译：梁傅淇

本文长度为1500字，建议阅读3分钟

本文提供了七个不同分类的自然语言处理小型标准数据集的下载链接，对于有志于练习自然语言处理的新手而言，是极有帮助的资源。

在你刚开始入手自然语言处理任务时，你需要数据集来练习。

最好是使用小型数据集，这样你可以快速下载，也不用花费很长的时间来调试模型。同时，使用被广泛使用和了解的标准数据集也是有所帮助的，你可以用你的结果来做比较，看一下是否有所进步。

在这篇博文中，你会找到一系列标准数据集来开始你的深度学习之旅。

总览

这篇博文被分成七个部分，它们是：

1. 文本分类（Text Classification）

2. 语言模型（Language Modeling）

3. 图像字幕（Image Captioning）

4. 机器翻译（Machine Translation）

5. 问答系统（Question Answering）

6. 语音识别（Speech Recognition）

7. 自动文摘（Document Summarization）

我已经尝试提供一系列被广泛使用于学术论文且规模适中的数据集。

几乎所有的数据集都是公开免费下载的。

如果你最喜欢的数据集没有被列出来，又或者你认为你所了解的更好的数据集应该被列出来的话，请在评论里告诉我。

我们开始吧。

1. 文本分类（Text Classification）

文本分类指的是标记句子或者文档，比如说垃圾邮件分类和情感分析。

以下是一些对于新手而言非常棒的文本分类数据集：

Reuters Newswire Topic Classification(Reuters-21578)（http://kdd.ics.uci.edu/databases/reuters21578/reuters21578.html）。

一系列1987年在路透上发布的按分类索引的文档。同样可以看RCV1，RCV2，以及TRC2

（http://trec.nist.gov/data/reuters/reuters.html）。

IMDB Movie Review Sentiment Classification (Stanford)（http://ai.stanford.edu/~amaas/data/sentiment/c）。

一系列从网站imdb.com上摘取的电影评论以及他们的积极或消极的情感。

News Group Movie Review Sentiment Classification (cornell)（http://www.cs.cornell.edu/people/pabo/movie-review-data/）。

更多的信息，可以从这篇博文中获取：Datasets for single-label text categorization

（http://

最低0.47元/天解锁文章

关注

7
点赞
踩
12

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。