入门自然语言处理数据集

作者:chen_h
微信号 & QQ:862251340
微信公众号:coderpai


在开始深入的学习自然语言处理任务时,我们需要准备一些数据集用来训练自己的算法。

在选择数据集上面,你最好使用可以快速下载的小的数据集,这种数据不用花太多的时间来训练模型。此外,你也可以使用一些标准的数据集或者被广泛使用的数据集,这样你可以把你的测试结果和别人的结果进行对比,以此来看是否取得进展。

在这篇文章中,我们将准备一套标准数据集可以用于你大部分的自然语言处理任务,在你学习深度学习的过程中肯定能用的到。

概要介绍

这篇文章被分为 7 个部分,具体如下:

  1. 文本分类
  2. 语言模型
  3. 图像语义
  4. 机器翻译
  5. 问答系统
  6. 语音识别
  7. 文本摘要

我试图在这里提供一个在学术界受欢迎的数据集,因为这样你就可以和别人的实验结果进行对比。

文中几乎所有的数据集都可以免费下载。

如果你认为你最喜欢的数据集没有被列出来,或者你有更好的数据集,请在下面的评论中让我知道。

让我们开始吧。

1. 文本分类

文本分类是指文件标签化,比如电子邮件分类和情感分类。

以下是一些好的初学者文本分类数据集。

更多的数据集,你可以查看这个博客

2. 语言模型

语言模型就是利用一个统计模型或者别的模型,来预测一句话的下一个单词。它在语音识别和机器翻译等任务中非常有用。

下面是一些比较入门的语言模型的数据集:

还有一些更加正式的语料库,如下:

3. 图像语义

图像语义是对给定的图像生成文本描述的任务。

以下是一些比较好的初学者数据集:

  • COCO。收集超过 12 万张图片与描述。
  • Flickr 8K。从 flickr.com 网站拍摄的 8000 张图片与描述。
  • Flickr 30K。从 flickr.com 网站拍摄的 3 万张图片与描述。

更多信息请看:

4. 机器翻译

机器翻译是将文本从一种语言翻译成另一种语言的任务。

以下是一些比较初级的机器翻译数据集。

这里还有大量的用于机器翻译挑战的标准数据集,如下:

5. 问答系统

问答系统是一个比较有意思的任务,给定一个句子或者文本,然后生成或者从数据库中挑选一个句子(文本)作为输出。

以下是一些比较好的初学问答数据集。

更多的有关数据,请参考这个文章:

6. 语音识别

语音识别是将口语的音频信息转换为文本数据。

以下是一些比较适合初学的语音识别数据集。

7. 文本摘要

文本摘要是为更大的文本数据创建一个简短并且高度概括的描述任务。

以下是一些比较好的文本摘要数据集。

更多信息可以查看下面的文章:

深入阅读

如果你希望更加的深入分析数据,那么下面的提供的数据集列表是非常有用的。


来源:Datasets for Natural Language Processing

  • 2
    点赞
  • 20
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值