公开数据集指的是不同的公司、组织公开的用于机器学习、深度学习、人工智能等方向大规模数据集合。以下数据集可用于数据分析、数据挖掘和机器学习等大数据场景下的测试和学习。
按照数据工作的不同应用主题方向,分为音频数据集、图像和视频数据集、自然语音数据集及综合数据集。
1.综合数据集
(1)UCI数据集
UCI数据集中包括了众多用于监督式和非监督式学习的数据集,大概660多个,其中很多数据集在其他众多数据工具中被反复引用,例如Iris、Wine、Adult、CarEvaluation、Forest Fires等。
每个数据集中都有关于数据实例数、数据产生领域、值域分布、特征数量、数据产生时间、模型方向、是否有缺失值等详细数据介绍,可用于分类、回归、聚类、时间序列、推荐系统等工作。
推荐度:★★★,推荐应用方向:监督式、非监督式机器学习,数据挖掘。
介绍和下载地址:http://archive.ics.uci.edu/ml/
(2)Kaggle数据集
Kaggle是一个流行的数据科学竞赛平台,各企业和研究者可在其上发布数据,统计学者和数据挖掘专家可在其上进行竞赛以产生最好的模型。数据集中覆盖了商业、犯罪、金融、政治、社会、体育等众多领域,除了有丰富的数据集可供使用外,高达100万美元的奖金池也吸引了众多数据参赛者。
推荐度:★★★,推荐应用方向:监督式、非监督式机器学习、深度学习、自然语言理解等。
数据集下载地址:Find Open Datasets and Machine Learning Projects | Kaggle
(3)UCI KDD数据集
UCI KDD(知识发现)是数据挖掘和可视化的研究项目,专注于大型数据收集下载中的实体事件关系。它是涉及几所大学的更广泛的KDD项目的一部分,UCI始于2002年10月。
推荐度:★★,推荐应用方向:监督式、非监督式机器学习。
介绍地址:UCI KDD Archive
下载地址:Index of /databases
(4)雅虎Webscope
雅虎Webscope用于为学者和其他科学家在非商业用途中使用。所有数据集已经过审查,符合雅虎的数据保护标准,包括严格的隐私控制。数据集中包含了广告和市场营销、自然语言数据、科学数据、图形和社会化数据、图像数据等7个主题。需要注意的是:数据集只适用于同意数据共享协议的教师和大学研究人员的在学术上使用。
推荐度:★★★,推荐应用方向:监督式、非监督式机器学习、深度学习、自然语言理解等。
介绍和下载地址:https://webscope.sandbox.yahoo.com
(5)AWS公开数据集
亚马逊提供的数据集涵盖气候、红外图像、卫星遥感、人类微生物、日本人口普查、公共电子邮件档案、歌曲、材料安全、谷歌图书语料库、石油等非常多的主题数据,并且这些数据可直接集成到AWS中进行数据挖掘和学习。
推荐度:★★★,推荐应用方向:监督式、非监督式机器学习、深度学习、神经网络、自然语言理解等。
介绍和下载地址:Registry of Open Data on AWS
(6)斯坦福网络数据集
斯坦福网络分析平台(SNAP)是一种用于分析和操纵大型网络的通用高性能系统,其本身使用的网络相关数据也对外开放,包括设计、社区、通信、网络图、互联网、道路、维基百科网络、在线社区和评论等不同主题,可用于分析大型社会和信息网络方面的研究成果。
推荐度:★★★,推荐应用方向:神经网络。
介绍和下载地址:Stanford Large Network Dataset Collection
(7)KONECT网络数据集
KONECT数据集是一个大型网络数据集的项目,在科布伦茨-兰道大学网络科学与技术研究所的网络科学和相关领域进行研究。KONECT有数百种各种类型的网络数据集,包括有向、无向、二分、加权、未加权、签名和评级的网络。KONECT的网络覆盖了许多不同领域,如社交网络、超链接网络、作者网络、物理网络、交互网络和通信网络等。
推荐度:★★★,推荐应用方向:神经网络。
介绍和下载地址:KONECT | Institute WeST
2.图像和视频数据集
(1)MNIST数据集
机器学习领域内用于手写字识别的数据集,数据集中包含6个万训练集、1万个示例测试集,每个样本图像的宽高为28×28。这些数据集的大小已经归一化,并且形成固定大小,因此预处理工作基本已经完成。在机器学习中,主流的机器学习工具(包括sklearn)很多都使用该数据集作为入门级别的介绍和应用。
推荐度:★★★,推荐应用方向:机器学习入门。
介绍和下载地址: