80+机器学习数据集,还不快收藏

整理 | suiling

出品 | AI科技大本营(ID:rgznai100)

 

对于从事机器学习的小伙伴来说,机器学习必须以大量的数据为基础,否则构建再好的模型也不能达到你想要的效果。同时,不同质量的数据集也会影响到模型训练的效果。之前营长就为大家推荐过一款机器学习数据集集合项目,如今该项目的作者已经如他所言更新内容啦!不信你看~

 

该项目包含了计算机视觉、自然语言处理、医疗等数据集,此外作者还很贴心地放上了每个数据集的时间、描述以及相关的Paper。

 

640?wx_fmt=gif

 

以下是该列表中的部分数据集

 

  • 计算机视觉数据集

 

640?wx_fmt=png

 

  • 自然语言处理数据集

 

640?wx_fmt=png

 

  • 问答数据集

 

640?wx_fmt=png

 

  • 医疗数据集

 

640?wx_fmt=png

 

更详尽的数据集列表,请见:https://www.datasetlist.com/

 

下边给大家推荐两个查找数据集的网站:

 

  • UCI machine learning repository:https://wordnet.princeton.edu/

 

UCI数据集是一个常用的机器学习标准测试数据集,经常出现在各种机器学习论文当中。

 

关于如何使用该数据集,可参考CSDN博客上的一篇文章:https://blog.csdn.net/qq_32892383/article/details/82225663

 

  • Kaggle datasets:https://www.kaggle.com/datasets

 

Kaggle,一个数据科学竞赛网站,大家都很熟悉了。

 

另外,营长此前也整理过一些数据集,一起分享给你。

 

 

今日QA:什么样的数据集算是好的数据集?欢迎在评论区留言。

 

(*本文由 AI科技大本营整理,转载请联系微信1092722531)

 

精彩推荐

「2019 Python开发者日」精彩日程全揭晓~这一次我们依然“只讲技术,拒绝空谈”10余位一线Python技术专家共同打造一场硬核技术大会。更有深度培训实操环节,为开发者们带来更多深度实战机会。更多详细信息请咨询13581782348(微信同号)。

 

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值