Machine Learning 和 Data Science 的最佳公共数据集

最新推荐文章于 2024-07-10 00:27:04 发布

假如我年华正好

最新推荐文章于 2024-07-10 00:27:04 发布

阅读量1.6k

点赞数

分类专栏：机器学习文章标签：机器学习数据集资源

原文链接：https://medium.com/towards-artificial-intelligence/the-50-best-public-datasets-for-machine-learning-d80e9f030279

版权

机器学习专栏收录该内容

6 篇文章 0 订阅

订阅专栏

什么是机器学习的最佳数据集？本文整理了一个高质量、多样化的机器学习数据集榜单。

AUTHORS:
Stacy Stanford, Machine Learning Memoirs Inc.
Roberto Iriondo, Machine Learning Department, Carnegie Mellon University.

PUBLISHED:
October 2, 2018
LAST UPDATED:
May 15, 2019
原文链接(需翻墙)：
https://medium.com/towards-artificial-intelligence/the-50-best-public-datasets-for-machine-learning-d80e9f030279

在搜索 high-quality datasets 时，要记住以下几点：

不混乱（messy），否则要花费大量时间来清理数据（cleaning data）；
不要有太多的行和列，否则难以使用；
数据越干净越好，清洗大型数据集将非常非常耗时；
要有一个目标，比如要回答一个问题或做一个决策，而这个目标又是可以通过数据来解答的。

Dataset Finders（去哪里寻找数据集）

Google Dataset Search：与Google Scholar 类似，可以查找到托管在任何位置的数据集，无论是发布者的网站，数字图书馆还是作者的个人网页。
Kaggle：一个数据科学网站，包含了各种外部贡献的有趣数据集，从拉面评级到篮球数据，甚至是西雅图宠物许可证。
UCI Machine Learning Repository：UCI机器学习库，Web上最古老的数据集源之一，也是寻找有趣数据集时的第一站。虽然数据集是用户贡献的，可能具有不同的清洁度（cleanliness），但绝大多数都是干净的。可以直接下载数据，无需注册。
VisualData：Discover Computer Vision Datasets，计算机视觉（CV）数据集，支持搜索查询
Find Datasets | CMU Libraries：感谢Huajin Wang, CMU 搜集的高质量数据集

General Datasets

- Public Government Datasets （政府公开数据集）

Data.gov：该站点可以下载美国多个政府机构的数据。数据范围从政府预算到学校绩效评估。但请注意：大部分数据需要进一步研究。
Food Environment Atlas：包含地方食物的选择如何影响美国饮食结构的数据。
School system finances：对美国学校系统财务状况的调查。
Chronic disease data：有关美国各地区慢性病指标的数据。
The US National Center for Education Statistics：美国国家教育统计中心，来自美国和世界各地的教育机构和教育人口统计数据。
The UK Data Service：英国最大的社会、经济和人口数据集。
Data USA：美国公共数据的全面可视化。

- Housing Datasets（住房数据集）

Boston Housing Dataset：波士顿住房数据集，包含美国人口普查局（the U.S Census Service）收集的有关波士顿马萨诸塞州（Boston Mass）住房的信息。它来自 StatLib archive，并在整个文献中广泛用于基准（benchmark）算法。

- Geographic Datasets（地理数据集）

Google-Landmarks-v2：用于地标识别和检索（landmark
recognition and retrieval.）的数据集（改进版）。该数据集包含来自世界各地的200k+地标的5M+图像，由Wiki Commons社区提供和注释。

- Finance & Economics Datasets（金融与经济数据集）

Quandl：经济和金融数据的良好来源 - 有助于建立预测经济指标或股票价格的模型。
World Bank Open Data：世界银行开放数据，涵盖全球人口统计数据（population demographics），大量经济和发展指标的数据集。
IMF Data：国际货币基金组织（The International Monetary Fund）公布的有关国际金融，债务利率，外汇储备，商品价格和投资的数据。
Financial Times Market Data：金融时报市场数据，来自世界各地的金融市场的最新信息，包括股票价格指数，商品和外汇。
Google Trends：谷歌趋势数据，分析世界各地的互联网搜索活动和热门新闻报道的数据。
American Economic Association (AEA)：美国经济协会（AEA），寻找美国宏观经济数据的良好来源。

Machine Learning Datasets:

- Imaging Datasets（图像数据集）

xView：最大的overhead imagery公开可用数据集之一。包含来自世界各地复杂场景的图像，使用边界框进行注释。
Labelme：带注释图像的大型数据集。
ImageNet：根据WordNet层次结构组织的新算法的真实图像数据集，其中成千上万的图像描绘了层次结构的每个节点。
LSUN：场景理解与许多辅助任务（房间布局估计，显着性预测等）
MS COCO：通用图像理解和字幕。
COIL100 ：360度旋转的每个角度拍摄的100个不同物体。
Visual Genome：视觉基因组，非常详细的视觉知识库，带有~100K带注释的图像。
Google’s Open Images：在知识共享下的900万个图像网站的集合，“已经注释了超过6,000个类别的标签”。
Labelled Faces in the Wild：13,000张人脸标记图像，用于开发涉及面部识别（facial recognition）的应用程序。
Stanford Dogs Dataset：包含20,580张图像和120种不同的犬种。
Indoor Scene Recognition：室内场景识别，一个非常特别的数据集，非常有用，因为大多数场景识别模型都是“在室外”场景下工作的。包含67个室内类别和15620个图像。

- Sentiment Analysis Datasets（情绪分析数据集）

Multidomain sentiment analysis dataset：多域情绪分析数据集，一个稍微较旧的数据集，其中包含来自亚马逊的产品评论。
IMDB reviews：一个较旧的，相对较小的数据集，用于二元情绪分类的，包含25,000个电影评论。
Stanford Sentiment Treebank：具有情感注释的标准情绪数据集。
Sentiment140：一个流行的数据集，包含了160,000条已经删除了表情符号的 tweets 。
Twitter US Airline Sentiment：美国航空公司（ US airlines）自2015年2月起的Twitter数据，tweets分类为正面，负面和中性。

- Natural Language Processing Datasets（自然语言处理数据集）

HotspotQA Dataset：问答数据集，多跳转问题，有助于实现更易于解释的问答系统。由卡内基梅隆大学，斯坦福大学和蒙特利尔大学的NLP研究人员团队收集。
Enron Dataset：来自Enron高级管理层的电子邮件数据，组织成文件夹。
Amazon Reviews：包含来自亚马逊的大约3500万条评论，跨度18年。数据包括产品和用户信息，评级和明文审核。
Google Books Ngrams：来自Google图书的一系列文字。
Blogger Corpus：从blogger.com收集的681,288篇博客文章的集合。每个博客至少包含200个常用英语单词。
Wikipedia Links data：维基百科的全文。该数据集包含来自400多万篇文章的近19亿个单词。可以按段落，短语或段落本身的一部分进行搜索。
Gutenberg eBooks List：Project Gutenberg的电子书注释列表。
Hansards text chunks of Canadian Parliament：来自第36届加拿大议会（Canadian Parliament）记录的130万对文本。
Jeopardy：来自问答节目Jeopardy的超过200,000个问题的归档。
Rotten Tomatoes Reviews：存档超过480,000番茄评论（新鲜或腐烂）。
SMS Spam Collection in English：由5,574条英文短信垃圾邮件组成的数据集。
Yelp Reviews：Yelp发布的一个开放数据集，包含超过500万条评论。
UCI’s Spambase：一个大型垃圾邮件数据集，对垃圾邮件过滤非常有用。

- Self-driving (Autonomous Driving) Datasets （自动驾驶数据集）

Berkeley DeepDrive BDD100k：是目前AI自动驾驶最大的数据集。包含超过100,000个视频，包括一天中不同时段和天气条件下超过1,100小时的驾驶体验。带注释的图像来自纽约和旧金山地区。
Baidu Apolloscapes：大型数据集，定义了26种不同的语义项目，如汽车，自行车，行人，建筑物，路灯等。
Comma.ai：超过7小时的高速公路驾驶。细节包括汽车的速度，加速度，转向角和GPS坐标。
Oxford’s Robotic Car：牛津的机器人汽车，在一年的时间内，在英国牛津的相同路线重复超过100次。该数据集捕获天气，交通和行人的不同组合，以及建筑和道路工程等长期变化。
Cityscape Dataset：城市景观数据，一个大型数据集，记录50个不同城市的城市街景。
CSSAD Dataset：此数据集可用于自动驾驶车辆的感知和导航。数据集严重偏向发达国家的道路。
KUL Belgium Traffic Sign Dataset：比利时（Belgium）法兰德斯地区数千个物理上不同的交通标志，有超过10000多个交通标志注释（traffic sign annotations）。
MIT AGE Lab：麻省理工实验室，在AgeLab收集的1,000多小时多传感器驾驶数据集的样本。
LISA: Laboratory for Intelligent & Safe Automobiles, UC San Diego Datasets：智能和安全汽车实验室，加州大学圣地亚哥分校，该数据集包括交通标志，车辆检测，交通信号灯和轨迹模式。
Bosch Small Traffic Light Dataset：用于深度学习的小型交通灯的数据集。
LaRa Traffic Light Recognition：交通信号灯的另一个数据集。在巴黎拍摄。
WPI datasets：交通信号灯，行人和车道检测的数据集。

- Clinical Datasets（临床数据集）

MIMIC-III：麻省理工学院计算生理学实验室（MIT Lab for Computational Physiology）开发的公开数据集，包括与约40,000名重症监护病人相关的去识别健康数据。它包括人口统计学，生命体征，实验室测试，药物等。

Source

[1] https://cloud.google.com/public-datasets/
[2] https://guides.library.cmu.edu/c.php?g=844845&p=6191907
[3] https://www.forbes.com/sites/bernardmarr/2018/02/26/big-data-and-ai-30-amazing-and-free-public-data-sources-for-2018/#f3bdeb5f8aec
[4] https://github.com/takeitallsource/awesome-autonomous-vehicles#datasets
[5] https://medium.com/startup-grind/fueling-the-ai-gold-rush-7ae438505bc2
[6] https://www.dataquest.io/blog/free-datasets-for-projects/
[7] https://gengo.ai/datasets/the-best-25-datasets-for-natural-language-processing/
[8] https://github.com/awesomedata/awesome-public-datasets#machinelearning
[9] http://lib.stat.cmu.edu/datasets/
[10] Institutional Research and Analysis | Common Datasets | https://www.cmu.edu/ira/CDS/index.html
[11] Datasets and Project Suggestions | Andrew W. Moore | http://www.cs.cmu.edu/~awm/15781/project/data.html
[12] Datasets | Machine Learning Repository | MIT | https://ocw.mit.edu/courses/sloan-school-of-management/15-097-prediction-machine-learning-and-statistics-spring-2012/datasets/
[13] Datasets | MIT Lincoln Laboratory | https://www.ll.mit.edu/r-d/datasets
[14] Stanford Large Network Dataset Collection | Stanford University | https://snap.stanford.edu/data/
[15] Stanford Common Dataset | Stanford University | https://snap.stanford.edu/data/
[16] Datalab | UC Berkeley | http://www.lib.berkeley.edu/libraries/data-lab
[17] Exploring Datasets | Data Science at Berkeley | https://datascience.berkeley.edu/open-data-sets/
[18] DeepDrive | UC Berkeley | https://bdd-data.berkeley.edu/

Citation:

原文引用方式：

Stanford, et al., “The Best Public Datasets for Machine Learning and Data Science”, Towards AI, 2018

BibTex citation：

@misc{stanford_2018,
  title={The Best Public Datasets for Machine Learning and Data Science}, 
  url={https://towardsai.net/datasets}, 
  note={https://towardsai.net/datasets},
  journal={Medium}, 
  publisher={Towards AI}, 
  author={Stanford, Stacy and Iriondo, Roberto}, 
  year={2018}, 
  month={Oct}
}

最后感谢谷歌翻译，
另外还可参考：https://zhuanlan.zhihu.com/p/48691462 最强数据集集合：50个最佳机器学习公共数据集丨资源

Happy machine learning!