数据集(三)|人工智能领域100+数据集分享,赶紧收藏!

本文整理了100多个人工智能领域的数据集,包括NLP语料库、问答数据集、情感分析数据、爬虫数据、实体识别数据以及CV类图像数据,覆盖新闻、社交媒体、医学等多个方面,是学习和实践AI技术的好资源。
摘要由CSDN通过智能技术生成

点击上方蓝字关注我们

学习数据分析需要持续进行实操,但很多读者找不到合适的数据集来练手,小编整理了人工智能领域100+数据集,总有一个是适合你练手的数据集!赶紧收藏点赞吧!

01

NLP语料库数据集

1.2016-2019新闻联播语料库(11.3MB)

https://www.heywhale.com/mw/dataset/5d2d344c688d36002c5da8e5

2.中文谣言语料库(32.6MB)

https://www.heywhale.com/mw/dataset/5d257f87688d36002c579342

3.中国对联数据集(28.2MB)

https://www.heywhale.com/mw/dataset/5c46e6f42d8ef5002b736d6d

4.1998人民日报标注语料库(PFR)(10.2MB)

https://www.heywhale.com/mw/dataset/5ce7983cd10470002b334de3

5.人民日报文章数据集(1979-2010)(811.9MB)

https://www.heywhale.com/mw/dataset/5c862b1ad635ff002ca2eb19

6.人民日报文章数据集(1949-1978)(559.4MB)

https://www.heywhale.com/mw/dataset/5c8626031e7104002b380a4b

7.中文新闻数据集(70.3MB)

https://www.heywhale.com/mw/dataset/5d8878638499bc002c1148f7

8.耶鲁文本转SQL语句挑战数据集(95.1MB)

https://www.heywhale.com/mw/dataset/5d48f322c143cf002bf36319

9.新加坡国立大学SMS语料库(23.4MB)

https://www.heywhale.com/mw/dataset/5d3ea76acf76a600361e9aa0

10.中文经典典籍语料

https://www.heywhale.com/mw/dataset/5d11e717708b90002c4d2983

11.非正式汉语数据集(214.5MB)

https://www.heywhale.com/mw/dataset/5d1c45459f53a9002ce35b61

12.维基百科中文语料库(518.7MB)

https://www.heywhale.com/mw/dataset/5d1ee7939f53a9002ce5910e

13.频率最高的9933个最常用汉字数据集(1.0MB)

https://www.heywhale.com/mw/dataset/5d8dd076037db3002d3a715c

14.聊天语料库数据集(210.7MB)

https://www.heywhale.com/mw/dataset/5dee1459953ca8002c9678a6

15.短文本分类数据集(13.1MB)

https://www.heywhale.com/mw/dataset/5dd645fca0cb22002c94e65d/file

16.成语阅读理解数据集(195.8MB)

https://www.heywhale.com/mw/dataset/5ddf91e8ca27f8002c4ad48d

17.论文自动评分数据集(78.8MB)

https://www.heywhale.com/mw/dataset/5de0c5ccca27f8002c4b178a

18.翻译语料(595.9MB)

https://www.heywhale.com/mw/dataset/5de5fcafca27f8002c4ca993

19.中文科学文献摘要数据集(92.9MB)

https://www.heywhale.com/mw/dataset/5de72db2ca27f8002c4ce7b4

20.维基百科英文语料库(89.0MB)

https://www.heywhale.com/mw/dataset/5ddba2c9f41512002cebfef6

21.Lord of the Rings指环王数据(223.9KB)

https://www.heywhale.com/mw/dataset/5da83b27c83fb400420c5707

22.中文机器阅读理解的跨度提取数据集(CMRC 2018)

https://www.heywhale.com/mw/dataset/5e7b180798d4a8002d2d3af6

23.36氪新闻数据集(42.5MB)

https://www.heywhale.com/mw/dataset/5eb68e91366f4d002d77d08d

24.1万条亚马逊乐器的评测/评论(13MB)

https://www.heywhale.com/mw/dataset/5e980ce4ebb37f002c5feccc

25.1万条互联网专栏资讯数据集(75.7MB)

https://www.heywhale.com/mw/dataset/5ebba2de0bff1b002ce6d6a7

26.2万条中文金融新闻数据集(66.6MB)

https://www.heywhale.c

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

数据万花筒

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值