关注:决策智能与机器学习,深耕AI脱水干货
来源 | 知乎
作者 | 攸宁
编辑 | 九三山人
编者按:数据是AI实施的必要条件,没有数据的AI就是空想,而AI圈的数据很多都可以在网上免费获取,非常方便,今天分享一个CMU大佬攸宁带来的数据集资源合集。主要包括了综合性数据集、CV计算机视觉数据集和NLP自然语言处理数据集。
PS:以前我们也分享过一些数据集的资源,感兴趣的可以在公众号历史文章中搜索查看,数据集系列也会持续更新。
一、综合性机器学习数据集
1. Google数据集搜索引擎
地址:https://toolbox.google.com/datasetsearch
类似Google Scholar的一个数据集搜索引擎,唯一的缺点是从国内访问的话需要科学上网。
2. CMU - ML和AI数据
地址:https://guides.library.cmu.edu/machine-learning/home
CMU的一个ML/AI指南,不仅包括了如何找ML/AI的数据集,还包括了找ML/AI相关的书籍、文章以及文献管理、研究可重复性的相关资源。
3. UCI Machine Learning Repository
地址:https://archive.ics.uci.edu/ml/index.php
这是一个很经典的ML数据集网站,在ML的paper当中经常会遇到基于这些数据集做的实验。UCI机器学习数据集目前共收纳了将近500个数据集,并将这些数据集按数据类型(univariate、multivariate、time-series等)和机器学习任务(classification、regression、recommendation systems等)分类。其中有不少数据是已经清洗好的,可以拿来直