用于自然语言处理的数据集集锦

在开始研究自然语言处理深度学习的时候,你需要有数据集来练习编程。

最好使用小的数据集,因为下载速度比较快,并且不用花太长的时间来适应模型。此外,使用容易理解并且广泛使用的标准数据集也是有帮助的,这能让你对结果进行比较,看看自己是否取得了进展。

本文介绍了一套用于自然语言处理任务的标准数据集,在你研究深度学习的时候可以使用。

概述

本文分为7个部分,包括:

  1. 文本分类
  2. 语言建模
  3. 图像字幕
  4. 机器翻译
  5. 问题回答
  6. 语音识别
  7. 文档摘要

我提供了不少的数据集,它们在学术论文中的使用非常广泛。几乎所有的数据集都可以免费下载。

让我们开始吧。
Datasets for Natural Language Processing
用于自然语言处理的数据集

1. 文本分类

文本分类是指对语句或者文档打标签,例如电子邮件分类和情感分析。

下面是一些不错的的初级文本分类数据集。

要获取有关更多信息,请参阅文章:

2. 语言建模

语言建模涉及到开发一个统计模型,该模型用于预测语句中的下一个单词,或者单词中的下一个字母。它是语音识别和机器翻译的前置任务。

下面是一些不错的的初级语言建模数据集。

  • Gutenberg项目,一大批免费的书籍,可以用各种语言进行检索。

还有更多正式的语料库可以用来研究,例如:

3. 图像字幕

图像字幕是为给定图像生成一段文本描述。

下面是一些不错的初级图像字幕数据集。

要获取更多信息请阅读这篇文章:

4. 机器翻译

机器翻译是将文本从一种语言翻译成另一种语言。

下面是一些不错的初级机器翻译数据集。

还有大量用于年度机器翻译挑战赛的标准数据集:

5. 问题回答

问题回答是从问题中提供一个句子或文本样例,并回答这个问题。

下面是一些不错的初级问题回答数据集。

要获取更多信息请阅读这篇文章:

6. 语音识别

语音识别是将口语音频转换为人类可读的文本。

下面是一些不错的初级语音识别数据集。

7. 文档摘要

文档摘要是为文档创建一个简短而有意义的描述。

下面是一些不错的初级文档摘要数据集。

欲了解更多信息,请参看:

进一步阅读

如果你打算进一步学习,这里还提供了其他一些数据集。

小结

本文介绍了一组标准的数据集,在开始研究深度学习的时候,你可以使用这些标准数据集进行自然语言处理。

文章原标题《Datasets for Natural Language Processing》,作者:Jason Brownlee,译者:夏天,审校:主题曲。

文章为简译,更为详细的内容,请查看原文

  • 1
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值