数据集汇总

内容转自https://blog.csdn.net/qq_32447301/article/details/79487335

金融

交通

商业

推荐系统

医疗健康

图像数据

综合图像

场景图像

Web标签图像

人形轮廓图像

视觉文字识别图像

特定一类事物图像

材质纹理图像

物体分类图像

人脸图像

姿势动作图像

指纹识别

其它图像数据

视频数据

综合视频

人类动作视频

行人检测视频

密集人群视频

其它视频

 

音频数据

 

综合音频

Google Audioset 音频数据【数据太大仅有介绍】

语音识别

 

自然语言处理

 

 

社会数据

 

新增数据集:

http://nltk.org/nltk_data/

https://pan.baidu.com/s/1szmNZQrwh9y994uO8DFL_A 提取码:f2ex  容量为1.8GB

http://sighan.cs.uchicago.edu/bakeoff2005/

Kaggle

书籍推荐数据集(goodreads/上万图书/百万评价)【Kaggle】

https://www.kaggle.com/zygmunt/goodbooks-10k

带有预期点数和获胜概率的NFL比赛详情数据集(2009-2016)【Kaggle】

https://www.kaggle.com/maxhorowitz/nflplaybyplay2009to2016

HackerNews数据集(2006年以来约1/4文章) 【Kaggle】

https://www.kaggle.com/hacker-news/hacker-news-corpus

酒店评价数据集【Kaggle】

https://www.kaggle.com/datafiniti/hotel-reviews

1950年以来NBA球员状态&表现数据集【Kaggle】

https://www.kaggle.com/drgilermo/nba-players-stats

开普勒太空望远镜深空星球光强时序数据集【Kaggle】

https://www.kaggle.com/keplersmachines/kepler-labelled-time-series-data

巴基斯坦无人机袭击数据集(2004-2016)【Kaggle】

https://www.kaggle.com/zusmani/pakistandroneattacks

墨尔本房屋市场数据集【Kaggle】

https://www.kaggle.com/anthonypino/melbourne-housing-market

1789-2016历任美国总统签署行政命令数据集【Kaggle】

https://www.kaggle.com/nationalarchives/executive-orders

来自Stack Overflow平台的Python语言问答数据集【Kaggle】

https://www.kaggle.com/stackoverflow/pythonquestions

来自Stack Overflow品台的R语言问答数据集【Kaggle】

https://www.kaggle.com/stackoverflow/rquestions

每日海冰范围数据集【Kaggle】

https://www.kaggle.com/nsidcorg/daily-sea-ice-extent-data

NIPS(1987-2016)论文数据集【Kaggle】

https://www.kaggle.com/benhamner/nips-papers

▍大学公开数据集

(Stanford)69G大规模无人机(校园)图像数据集【Stanford】

http://cvgl.stanford.edu/projects/uav_data/

人脸素描数据集【CUHK】

http://mmlab.ie.cuhk.edu.hk/archive/facesketch.html

自然语言推理(文本蕴含标记)数据集【NYU】

https://www.nyu.edu/projects/bowman/multinli/

Berkeley图像分割数据集BSDS500【Berkeley】

https://www2.eecs.berkeley.edu/Research/Projects/CS/vision/grouping/resources.html

宠物图片(分割)数据集【Oxford】

http://www.robots.ox.ac.uk/~vgg/data/pets/

发布ADE20K场景感知/解析/分割/多目标识别数据集【MIT】

https://groups.csail.mit.edu/vision/datasets/ADE20K/

多模态二元行为数据集【GaTech】

http://www.cbi.gatech.edu/mmdb/

▍计算机视觉/图像/视频数据集:

Fashion-MNIST风格服饰图像数据集【肖涵】

https://github.com/zalandoresearch/fashion-mnist

大型(50万)LOGO标志数据集

https://data.vision.ee.ethz.ch/cvl/lld/

4D扫描(60fps移动非刚性物体3D扫描)数据集【D-FAUST】

http://dfaust.is.tue.mpg.de

基于MNIST的视觉计数合成数据集Counting MNIST

http://fomoro.com/tools/counting-mnist/

YouTube MV视频数据集【Keunwoo Choi】

https://github.com/keunwoochoi/YouTube-music-video-5M

计算机视觉合成数据集/工具大列表【unrealcv】

https://github.com/unrealcv/synthetic-computer-vision

动物属性标记数据集【ChristophH. Lampert/Daniel Pucher/JohannesDostal】

http://cvml.ist.ac.at/AwA2/

日本漫画数据集Manga109

http://dl.acm.org/citation.cfm?doid=3011549.3011551

俯拍舞蹈视频数据集

http://homepages.inf.ed.ac.uk/rbf/CEILIDHDATA/

Pixiv(着色)图片数据集【Jerry Li】

https://github.com/jerryli27/pixiv_dataset

e-VDS视频数据集

https://engineering.purdue.edu/elab/eVDS/#download

Quick, Draw!简笔画涂鸦数据集

https://github.com/googlecreativelab/quickdraw-dataset

简笔画涂鸦数据集【hardmaru】

https://github.com/hardmaru/sketch-rnn-datasets

服饰人像生成模型(&Chictopia10K[HumanParsing]时尚人像解析数据集)【Christoph Lassner/Gerard Pons-Moll/Peter V. Gehler】

http://files.is.tue.mpg.de/classner/gp/

COCO像素级标注数据集

https://github.com/nightrome/cocostuff

大规模街道级图片(分割)数据集【Peter Kontschieder】

http://blog.mapillary.com/product/2017/05/03/mapillary-vistas-dataset.html

大规模日语图片描述数据集

https://github.com/STAIR-Lab-CIT/STAIR-captions

Cityscapes街景语义分割数据集(50城30类5k细标20k粗标图片及标记视频)

https://github.com/mcordts/cityscapesScripts

(街头)时尚服饰数据集(2000+标注图片)

https://github.com/bearpaw/clothing-co-parsing

PyTorch实现的VOC2012数据集Pixel-wise目标分割【BodoKaiser】

https://github.com/bodokaiser/piwise

Twenty Billion Neurons对象复杂运动与交互视频数据集【Nikita Johnson】

https://www.re-work.co/blog/the-something-something-video-dataset

▍文本/评价/问答/自然语言数据集:

(20万)英文笑话数据集【TaivoPungas】

https://github.com/taivop/joke-dataset

机器学习保险行业问答开放数据集【HainWang】

https://github.com/shuzi/insuranceQA

保险行业问答(QA)数据集【Minwei Feng】

https://github.com/shuzi/insuranceQA

Stanford NLP发布新的多轮、跨域、任务导向对话数据集【Mihail Eric】

https://github.com/keunwoochoi/YouTube-music-video-5M

实体/名词语义关系标记数据集【David S. Batista】

https://github.com/davidsbatista/Annotated-Semantic-Relationships-Datasets

NLVR:自然语言基础数据集(对象分组、数量、比较及空间关系推理)

http://lic.nlp.cornell.edu/nlvr/

2.8万文章/10万问题大规模(英语考试)阅读理解数据集

https://github.com/qizhex/RACE_AR_baselines

错误拼写数据集

http://www.dcs.bbk.ac.uk/~ROGER/corpora.html

文本简化数据集

http://www.cs.pomona.edu/~dkauchak/simplification/

英语词/句/语义框架框架标注数据集FrameNet

https://framenet.icsi.berkeley.edu/fndrupal/

(又一个)自然语言处理(NLP)数据集列表【Nicolas Iderhoff】

https://github.com/niderhoff/nlp-datasets

跨语种/多样式/多粒度文本相似性检测数据集

https://github.com/FerreroJeremy/Cross-Language-Dataset

Quora数据集:400000行潜在重复问题

http://qim.ec.quoracdn.net/quora_duplicate_questions.tsv

文本分类数据集

http://disi.unitn.it/moschitti/corpora.htm

Frames:Maluuba对话数据集

https://datasets.maluuba.com/Frames/dl

跨域(Amazon商品评论)情感数据集

http://www.cs.jhu.edu/~mdredze/datasets/sentiment/

语义网机器学习系统评价/基准数据集集合

http://dws.informatik.uni-mannheim.de/en/research/a-collection-of-benchmark-datasets-for-ml

▍其它数据集

数据科学/机器学习数据集汇总

https://elitedatascience.com/datasets

CORe50:连续目标识别数据集【VincenzoLomonaco&DavideMaltoni】

https://vlomonaco.github.io/core50/

(Matlab)数据集统计分布自动发现【Isabel Valera】

http://proceedings.mlr.press/v70/valera17a.html

(建筑物)损害评估数据集【tsunami】

https://github.com/faiton713/ABCDdataset

IndieWeb社交图谱数据集【IndieWeb】

http://www.indiemap.org

DeepMind开源环境/数据集/代码集合【DeepMind】

https://deepmind.com/research/open-source/

鸟叫声数据集【xeno-canto】

http://www.xeno-canto.org

Wolfram数据集仓库

https://datarepository.wolframcloud.com

大型音乐分析数据集FMA

https://github.com/mdeff/fma

(300万)Instacart在线杂货购物数据集【Jeremy Stanley】

https://tech.instacart.com/3-million-instacart-orders-open-sourced-d40d29ead6f2

用于欺诈检测的合成财务数据集【TESTIMON】

https://www.kaggle.com/ntnu-testimon/paysim1

NSynth:大规模高质量音符标记音频数据集

https://magenta.tensorflow.org/datasets/nsynth

LIBSVM格式分类/回归/多标签/字符串数据集

https://www.csie.ntu.edu.tw/~cjlin/libsvmtools/datasets/binary.html

笔记本电脑用logistic回归拟合100G数据集【DmitriySelivanov】

http://dsnotes.com/post/2017-02-07-large-data-feature-hashing-and-online-learning-part-2/

StackExchange近似/重复问题数据集

http://nlp.cis.unimelb.edu.au/resources/cqadupstack/

2010-2017最全KDD CUP赛题回顾及数据集

http://suo.im/2kRoQ1

食谱数据集:带有评级、营养及类别信息的超过2万种食谱【HugoDarwood】

https://www.kaggle.com/hugodarwood/epirecipes

奥斯卡数据集【Academy of Motion Picture Arts and Sciences】

https://www.kaggle.com/theacademy/academy-awards

计算医疗库:(TensorFlow)大型医疗数据集分析与机器学习建模【AkshayBhat】

https://github.com/AKSHAYUBHAT/ComputationalHealthcare

聚类数据集

https://cs.joensuu.fi/sipu/datasets/

官方开放气候数据集

https://pan.baidu.com/s/1i52Xarb

全球恐怖袭击事件数据集【START Consortium】

https://www.kaggle.com/START-UMD/gtd

七个机器学习时序数据集

https://machinelearningmastery.com/time-series-datasets-for-machine-learning/

大型众包关系数据库自然语言查询语义解析数据集(8万+查询样本)

http://t.cn/RNMr09n

赛马赔率数据集

http://t.cn/RNf0tXN

新的YELP数据集:包含470万评论和15.6万商家

http://t.cn/RNG6JYi

JMIR数据集专刊《JMIR Data》

http://t.cn/RCIhmvS

用于评价监督机器学习算法的基准数据集

https:// github.com/EpistasisLab/penn-ml-benchmarks

人口普查收入数据集分类

https:// github.com/dformoso/sklearn-classification

日文木版印刷文字识别数据集

http://t.cn/RCZPfYB

多模态二元行为数据集

http://t.cn/RCzFn1g

(TensorFlow)AudioSet音频事件数据集分类模型

GitHub: tensorflow/models/tree/master/audioset

Facebook星际争霸游戏数据集

(TorchCraft可读/365GB/6万多场次/15亿帧画面/近5亿用户操作)

http://t.cn/R9j8AUM

机器学习论文/数据集/工具集锦(日文)

http://t.cn/RKV7x2A

机器学习公司的十大数据搜集策略

http://t.cn/R54rtvd

NLP数据集加载工具集

http://t.cn/RaYwYXl

日语相似词数据集

http://t.cn/RaVFV35

大规模人本完形填空(多选阅读理解)数据集

http://t.cn/Rac2Pey

高质量免费数据集列表

http://t.cn/R6B1aqa

《数据之美》自然语言数据集/代码

http://t.cn/hBOTM4

微软数据集MS MARCO,阅读理解领域的「ImageNet」

http://t.cn/RIMqGBK

AI2科学问答数据集(多选)

http://t.cn/RI5liwJ

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值