2019年用于机器学习的50个最佳公共数据集

https://www.toutiao.com/a6651193860733010439/

 

 2019-01-27 23:59:35

在网上搜罗了几个小时,为高质量和多样化的机器学习数据集创建了一个很好的备忘单。

2019年用于机器学习的50个最佳公共数据集

 

首先,在搜索数据集时要记住几点。根据卡内基梅隆大学的说法。

数据集不应该是混乱的,因为您不希望花费大量时间来清理数据。

数据集不应包含太多行或列,因此很容易使用。

数据越干净越好 - 清理大型数据集可能非常耗时。

应该有一个有趣的问题,而这个问题又可以用数据来回答。

数据集查找器

Kaggle:https://www.kaggle.com。一个包含各种外部贡献的有趣数据集的数据科学网站。你可以在它的各种相关主题数据集的主列表,从拉面评级至篮球数据到甚至西雅图的宠物许可证。

2019年用于机器学习的50个最佳公共数据集

 

UCI机器学习库:http://mlr.cs.umass.edu/ml/。Web上最古老的数据集源之一,是寻找有趣数据集的第一站。虽然数据集是用户贡献的,因此具有不同的清洁度,但绝大多数都是干净的。您可以直接从UCI机器学习库下载数据,无需注册。

2019年用于机器学习的50个最佳公共数据集

 

一般数据集

公共政府数据集

Data.gov:https://www.data.gov/。该网站可以从多个美国政府机构下载数据。数据范围从政府预算到学校绩效分数。但请注意:大部分数据需要进一步研究。

2019年用于机器学习的50个最佳公共数据集

 

Food Environment Atlas:https://catalog.data.gov/dataset/food-environment-atlas-f4a22。 食物环境地图集:包含当地食物选择如何影响美国饮食的数据。

School system finances:https://catalog.data.gov/dataset/annual-survey-of-school-system-finances。美国学校系统财务:对美国学校系统财务状况的调查。

慢性病数据:https://catalog.data.gov/dataset/u-s-chronic-disease-indicators-cdi-e50c9。美国各地区慢性病指标数据。

美国国家教育统计中心:https://nces.ed.gov/。来自美国和世界各地的教育机构和教育人口统计数据。

 

英国数据服务:https://www.ukdataservice.ac.uk/。英国最大的社会,经济和人口数据集。

Data USA:http://datausa.io/。美国公共数据的全面可视化。

2019年用于机器学习的50个最佳公共数据集

 

金融与经济

Quandl:https://www.quandl.com/。经济和金融数据的良好来源 - 有助于建立预测经济指标或股票价格的模型。

2019年用于机器学习的50个最佳公共数据集

 

世界银行开放数据:https://data.worldbank.org/。涵盖全球人口统计数据,大量经济和发展指标的数据集。

2019年用于机器学习的50个最佳公共数据集

 

2019年用于机器学习的50个最佳公共数据集

 

国际货币基金组织数据:https://www.imf.org/en/Data。国际货币基金组织公布有关国际金融,债务利率,外汇储备,商品价格和投资的数据。

 

金融时报市场数据:https://markets.ft.com/data/。来自世界各地的金融市场的最新信息,包括股票价格指数,商品和外汇。

2019年用于机器学习的50个最佳公共数据集

 

谷歌趋势:https://trends.google.com/trends/。检查和分析世界各地的互联网搜索活动和热门新闻报道的数据。

 

美国经济协会(AEA):https://www.aeaweb.org/resources/data/us-macro-regional。寻找美国宏观经济数据的良好来源。

2019年用于机器学习的50个最佳公共数据集

 

机器学习数据集

图片

Labelme:http://labelme.csail.mit.edu/Release3.0/browserTools/php/dataset.php。带注释图像的大型数据集。

2019年用于机器学习的50个最佳公共数据集

 

ImageNet:http://image-net.org/。根据WordNet层次结构组织的新算法的事实上的图像数据集,其中成千上万的图像描绘了层次结构的每个节点。

2019年用于机器学习的50个最佳公共数据集

 

LSUN:http://lsun.cs.princeton.edu/2017/。场景理解与许多辅助任务(房间布局估计,显着性预测等)

2019年用于机器学习的50个最佳公共数据集

 

MS COCO:http://mscoco.org/。通用图像理解和字幕。

 

COIL100 :http://www1.cs.columbia.edu/CAVE/software/softlib/coil-100.php。在360度旋转的每个角度拍摄100个不同的物体。

2019年用于机器学习的50个最佳公共数据集

 

Visual Genome视觉基因组:http://visualgenome.org/。非常详细的视觉知识库,带有~100K图像的字幕。

 

Google Open Images谷歌的开放图像:https://research.googleblog.com/2016/09/introducing-open-images-dataset.html。在知识共享下,有900万个图像的网络集合“已经注释了超过6,000个类别的标签”。

Labelled Faces in the Wild野外标记面:http://vis-www.cs.umass.edu/lfw/。13,000张人脸标记图像,用于开发涉及面部识别的应用程序。

2019年用于机器学习的50个最佳公共数据集

 

Stanford Dogs Dataset:http://vision.stanford.edu/aditya86/ImageNetDogs/。包含20,580张图像和120种不同的犬种。

 

Indoor Scene Recognition:http://web.mit.edu/torralba/www/indoor.html。一个非常特殊的数据集,非常有用,因为大多数场景识别模型都更好“在外面”。包含67个室内类别和15620个图像。

Got-10k:http://got-10k.aitestunion.com/。中科院发布的目标追踪数据集,包含了超过10,000条视频,主角都是在现实世界里移动的物体,分成560多个类别。物体的边界框全部是手动标记,总计超过150万个。

 

视频加载中...

 

MNIST:http://yann.lecun.com/exdb/mnist/。是最受欢迎的深度学习数据集之一,这是一个手写数字数据集,包含一组60,000个示例的训练集和一个包含10,000个示例的测试集。这是一个很好的数据库,用于在实际数据中尝试学习技术和深度识别模式,同时可以在数据预处理中花费最少的时间和精力。

 

情感分析

多域情绪分析数据集2.0:http://www.cs.jhu.edu/~mdredze/datasets/sentiment/。一个稍微较旧的数据集,其中包含来自亚马逊的产品评论。

IMDB评论:http://ai.stanford.edu/~amaas/data/sentiment/。用于二元情绪分类的较旧的,相对较小的数据集具有25,000个电影评论。

Stanford Sentiment Treebank斯坦福情感树库:http://nlp.stanford.edu/sentiment/code.html。具有情感注释的标准情绪数据集。

2019年用于机器学习的50个最佳公共数据集

 

Sentiment140:http://help.sentiment140.com/for-students/。一个流行的数据集,它使用160,000条预先删除表情符号的推文。

Twitter美国航空公司情绪:https://www.kaggle.com/crowdflower/twitter-airline-sentiment。2015年2月美国航空公司的Twitter数据,分类为正面,负面和中性推文

2019年用于机器学习的50个最佳公共数据集

 

自然语言处理

Enron Dataset:https://www.cs.cmu.edu/~./enron/。来自安然高级管理层的电子邮件数据,组织成文件夹。

亚马逊评论:https://snap.stanford.edu/data/web-Amazon.html。包含来自亚马逊的大约3500万条评论,涵盖18年。数据包括产品和用户信息,评级和明文审核。

Google Books Ngrams:https://aws.amazon.com/datasets/google-books-ngrams/。来自Google图书的一系列文字。

Blogger Corpus:http://u.cs.biu.ac.il/~koppel/BlogCorpus.htm。收集来自blogger.com的681,288篇博客文章。每个博客至少包含200个常用英语单词。

维基百科链接数据:https://code.google.com/p/wiki-links/downloads/list。维基百科的全文。该数据集包含来自400多万篇文章的近19亿个单词。您可以按段落,短语或段落本身的一部分进行搜索。

Gutenberg电子书列表:http://www.gutenberg.org/wiki/Gutenberg:Offline_Catalogs。Project Gutenberg的电子书注释列表。

Hansards发表了加拿大议会的大量文章:http://www.isi.edu/natural-language/download/hansard/。来自第36届加拿大议会记录的130万对文本。

Jeopardy:http://www.reddit.com/r/datasets/comments/1uyd0t/200000_jeopardy_questions_in_a_json_file/。来自测验节目Jeopardy的超过200,000个问题的归档。

英语短信垃圾邮件收集:http://www.dt.fee.unicamp.br/~tiago/smsspamcollection/。由5,574条英文短信垃圾邮件组成的数据集

Yelp评论:https://www.yelp.com/dataset。Yelp发布的一个开放数据集,包含超过500万条评论。

 

UCI的Spambase:https://archive.ics.uci.edu/ml/datasets/Spambase。一个大型垃圾邮件数据集,对垃圾邮件过滤非常有用。

2019年用于机器学习的50个最佳公共数据集

 

自动驾驶

Berkeley DeepDrive BDD100k:http://bdd-data.berkeley.edu/。目前是自动驾驶AI的最大数据集。包含超过100,000个视频,包括一天中不同时段和天气条件下超过1,100小时的驾驶体验。带注释的图像来自纽约和旧金山地区。

2019年用于机器学习的50个最佳公共数据集

 

百度Apolloscapes:http://apolloscape.auto/。大型数据集,定义了26种不同的语义项目,如汽车,自行车,行人,建筑物,路灯等。

 

Comma.ai:https://archive.org/details/comma-dataset。超过7小时的高速公路驾驶。细节包括汽车的速度,加速度,转向角和GPS坐标。

牛津的机器人汽车:http://robotcar-dataset.robots.ox.ac.uk/。在英国牛津的相同路线重复超过100次,在一年的时间内完成。该数据集捕获了天气,交通和行人的不同组合,以及建筑和道路工程等长期变化。

2019年用于机器学习的50个最佳公共数据集

 

城市景观数据集:https://www.cityscapes-dataset.com/。一个大型数据集,记录50个不同城市的城市街景。

 

CSSAD数据集:http://aplicaciones.cimat.mx/Personal/jbhayet/ccsad-dataset。此数据集可用于自动驾驶车辆的感知和导航。数据集严重偏向发达国家的道路。

KUL比利时交通标志数据集:http://www.vision.ee.ethz.ch/~timofter/traffic_signs/。比利时法兰德斯地区数千个物理上不同的交通标志,有超过10000多个交通标志注释。

2019年用于机器学习的50个最佳公共数据集

 

MIT AgeLab:http://agelab.mit.edu/data-studio。在AgeLab收集的1,000多小时多传感器驾驶数据集的样本。

2019年用于机器学习的50个最佳公共数据集

 

LISA:http://cvrr.ucsd.edu/LISA/datasets.html。智能和安全汽车实验室,加州大学圣地亚哥分校数据集:该数据集包括交通标志,车辆检测,交通信号灯和轨迹模式。

  • 1
    点赞
  • 28
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值