前段时间在知乎上线一个宝,就转载过来和大家分享~~~
转载自:https://zhuanlan.zhihu.com/p/25138563
金融
沪深股票除权除息、配股增发全量数据,截止 2016.12.31
上证主板日线数据,截止 2017.05.05,原始价、前复权价、后复权价,1260支股票
深证主板日线数据,截止 2017.05.05,原始价、前复权价、后复权价,466支股票
深证中小板日线数据,截止 2017.05.05,原始价、前复权价、后复权价,852支股票
深证创业板日线数据,截止 2017.05.05,原始价、前复权价、后复权价,636支股票
上证A股日线数据,1999.12.09至 2016.06.08,前复权,1095支股票
深证A股日线数据,1999.12.09至 2016.06.08,前复权,1766支股票
深证创业板日线数据,1999.12.09 至2016.06.08,前复权,510支股票
Zillow 网站房地产价值预测竞赛数据【Kaggle竞赛】
Sberbank 俄罗斯房地产价值预测竞赛数据【Kaggle竞赛】
交通
运用卫星数据跟踪亚马逊热带雨林中的人类轨迹竞赛【Kaggle竞赛】
纽约出租车管理委员会官方的乘车数据(2009年-2016年)
商业
Bosch 生产流水线降低次品率竞赛数据【Kaggle竞赛】
Airbnb 新用户的民宿预定预测竞赛数据【Kaggle竞赛】
Grupo Bimbo 面包店库存和销量预测竞赛【Kaggle竞赛】
推荐系统
Book Crossing Large MovieReview
医疗健康
美国国家健康与服务部-国家癌症研究所发起的癌症数据仓库介绍【仅有介绍】
Data ScienceBowl 2017 肺癌识别竞赛数据【数据太大仅有介绍】
SPIE-AAPM-NCIPROSTATEx竞赛第1部分数据(MRI核磁共振影像识别前列腺癌程度数据)SPIE-AAPM-NCIPROSTATEx竞赛第2部分数据(MRI核磁共振影像识别前列腺癌程度数据)RIDER Breast 乳腺癌 MRI 影像数据
从 CT 影像中对肺部影像进行分割并识别肺部容积【Kaggle竞赛】
通过Egg脑电图像预测患者癫痫病发作竞赛【Kaggle竞赛】
图像数据
综合图像
ILSVRC 2014 训练数据(ImageNet的一部分)
PASCAL Visual Object Classes 2012 图像数据
PASCAL Visual Object Classes 2011 图像数据
PASCAL Visual Object Classes 2010 图像数据
80 Million Tiny Image 图像数据【数据太大仅有介绍】
场景图像
Web标签图像
人形轮廓图像
视觉文字识别图像
Street View House Number 门牌号图像数据
NIST Handprinted Forms and Characters 手写英文字符数据
NIST Structured Forms Reference Set of Binary Images (SFRS) 图像数据
NIST Structured Forms Reference Set of Binary Images (SFRS) II 图像数据
特定一类事物图像
Labeled Fishes in the Wild 鱼类图像
Nature Conservancy Fisheries Monitoring 过度捕捞监控图像数据【Kaggle数据】
材质纹理图像
物体分类图像
人脸图像
Labeled Faces in the Wild 人脸数据
Extended Yale Face Database B 人脸数据
FDDB_Face Detection Data Set and Benchmark
NIST Mugshot Identification Database Faces in the Wild 人脸数据
姿势动作图像
HMDB_a large human motion database
Human Actionsand Scenes Dataset
Human Pose Evaluator 人体轮廓识别图像数据
VGG Human Pose Estimation 姿势图像标注数据
指纹识别
NIST Supplemental Fingerprint Card Data (SFCD) 指纹识别数据
NIST Plain and Rolled Images from Paired Fingerprint Cards in 500 pixels per inch 指纹识别数据
NIST Plain and Rolled Images from Paired Fingerprint Cards 1000 pixels per inch 指纹识别数据
其它图像数据
Visual Question Answering V1.0 图像数据
Visual Question Answering V2.0 图像数据
视频数据
综合视频
DAVIS_Densely Annotated Video Segmentation 数据
人类动作视频
Microsoft Research Action 人类动作视频数据
UCF50 Action Recognition 动作识别数据
UCF101 Action Recognition 动作识别数据
Recognition of human actions 动作视频数据
SBU Kinect Interaction 肢体动作视频数据
目标检测视频
密集人群视频
Tracking in High Density Crowds 高密度人群视频
其它视频
音频数据
综合音频
Google Audioset 音频数据【数据太大仅有介绍】
语音识别
Room Impulse Response and Noise 语音数据
自然语言处理
First Quora Release Question Pairs 问答数据
Yale Youtube Vedio Text斯坦福问答数据【Kaggle数据】
NIPS会议文章信息数据(1987-2016)【Kaggle数据】
European Parliament Proceedings Parallel Corpus 机器翻译数据
Stanford Sentiment Treebank 词汇数据
社会数据
世界大学排名芝加哥犯罪数据(2001-2017)【Kaagle数据】
世界范围显著地震数据(1965-2016)【Kaagle数据】
希拉里 vs 特朗普竞选期间 Twitter 数据【Kaggle竞赛】
处理后的科研和竞赛数据
Social Computing Data Repository 社交网络数据
根据手机应用软件使用行为预测用户性别年龄竞赛数据【Kaggle竞赛】
人体骨骼关键点检测竞赛数据【ChallengerAI 竞赛】
大学公开数据集
(Stanford)69G大规模无人机(校园)图像数据集【Stanford】
http://cvgl.stanford.edu/projects/uav_data/
人脸素描数据集【CUHK】
http://mmlab.ie.cuhk.edu.hk/archive/facesketch.html
自然语言推理(文本蕴含标记)数据集【NYU】
https://www.nyu.edu/projects/bowman/multinli/
Berkeley图像分割数据集BSDS500【Berkeley】
https://www2.eecs.berkeley.edu/Research/Projects/CS/vision/grouping/resources.html
宠物图片(分割)数据集【Oxford】
http://www.robots.ox.ac.uk/~vgg/data/pets/
发布ADE20K场景感知/解析/分割/多目标识别数据集【MIT】
https://groups.csail.mit.edu/vision/datasets/ADE20K/
多模态二元行为数据集【GaTech】
http://www.cbi.gatech.edu/mmdb/
计算机视觉/图像/视频数据集
Fashion-MNIST风格服饰图像数据集【肖涵】
https://github.com/zalandoresearch/fashion-mnist
大型(50万)LOGO标志数据集
https://data.vision.ee.ethz.ch/cvl/lld/
4D扫描(60fps移动非刚性物体3D扫描)数据集【D-FAUST】
http://dfaust.is.tue.mpg.de
基于MNIST的视觉计数合成数据集Counting MNIST
http://fomoro.com/tools/counting-mnist/
YouTube MV视频数据集【Keunwoo Choi】
https://github.com/keunwoochoi/YouTube-music-video-5M
计算机视觉合成数据集/工具大列表【unrealcv】
https://github.com/unrealcv/synthetic-computer-vision
动物属性标记数据集【ChristophH. Lampert/Daniel Pucher/JohannesDostal】
http://cvml.ist.ac.at/AwA2/
日本漫画数据集Manga109
http://dl.acm.org/citation.cfm?doid=3011549.3011551
俯拍舞蹈视频数据集
http://homepages.inf.ed.ac.uk/rbf/CEILIDHDATA/
Pixiv(着色)图片数据集【Jerry Li】
https://github.com/jerryli27/pixiv_dataset
e-VDS视频数据集
https://engineering.purdue.edu/elab/eVDS/#download
Quick, Draw!简笔画涂鸦数据集
https://github.com/googlecreativelab/quickdraw-dataset
简笔画涂鸦数据集【hardmaru】
https://github.com/hardmaru/sketch-rnn-datasets
服饰人像生成模型(&Chictopia10K[HumanParsing]时尚人像解析数据集)【Christoph Lassner/Gerard Pons-Moll/Peter V. Gehler】
http://files.is.tue.mpg.de/classner/gp/
COCO像素级标注数据集
https://github.com/nightrome/cocostuff
大规模街道级图片(分割)数据集【Peter Kontschieder】
http://blog.mapillary.com/product/2017/05/03/mapillary-vistas-dataset.html
大规模日语图片描述数据集
https://github.com/STAIR-Lab-CIT/STAIR-captions
Cityscapes街景语义分割数据集(50城30类5k细标20k粗标图片及标记视频)
https://github.com/mcordts/cityscapesScripts
(街头)时尚服饰数据集(2000+标注图片)
https://github.com/bearpaw/clothing-co-parsing
PyTorch实现的VOC2012数据集Pixel-wise目标分割【BodoKaiser】
https://github.com/bodokaiser/piwise
Twenty Billion Neurons对象复杂运动与交互视频数据集【Nikita Johnson】
https://www.re-work.co/blog/the-something-something-video-dataset
文本/评价/问答/自然语言数据集
(20万)英文笑话数据集【TaivoPungas】
https://github.com/taivop/joke-dataset
机器学习保险行业问答开放数据集【HainWang】
https://github.com/shuzi/insuranceQA
保险行业问答(QA)数据集【Minwei Feng】
https://github.com/shuzi/insuranceQA
Stanford NLP发布新的多轮、跨域、任务导向对话数据集【Mihail Eric】
https://github.com/keunwoochoi/YouTube-music-video-5M
实体/名词语义关系标记数据集【David S. Batista】
https://github.com/davidsbatista/Annotated-Semantic-Relationships-Datasets
NLVR:自然语言基础数据集(对象分组、数量、比较及空间关系推理)
http://lic.nlp.cornell.edu/nlvr/
2.8万文章/10万问题大规模(英语考试)阅读理解数据集
https://github.com/qizhex/RACE_AR_baselines
错误拼写数据集
http://www.dcs.bbk.ac.uk/~ROGER/corpora.html
文本简化数据集
http://www.cs.pomona.edu/~dkauchak/simplification/
英语词/句/语义框架框架标注数据集FrameNet
https://framenet.icsi.berkeley.edu/fndrupal/
(又一个)自然语言处理(NLP)数据集列表【Nicolas Iderhoff】
https://github.com/niderhoff/nlp-datasets
跨语种/多样式/多粒度文本相似性检测数据集
https://github.com/FerreroJeremy/Cross-Language-Dataset
Quora数据集:400000行潜在重复问题
http://qim.ec.quoracdn.net/quora_duplicate_questions.tsv
文本分类数据集
http://disi.unitn.it/moschitti/corpora.htm
Frames:Maluuba对话数据集
https://datasets.maluuba.com/Frames/dl
跨域(Amazon商品评论)情感数据集
http://www.cs.jhu.edu/~mdredze/datasets/sentiment/
语义网机器学习系统评价/基准数据集集合
http://dws.informatik.uni-mannheim.de/en/research/a-collection-of-benchmark-datasets-for-ml
其它数据集
数据科学/机器学习数据集汇总
https://elitedatascience.com/datasets
CORe50:连续目标识别数据集【VincenzoLomonaco&DavideMaltoni】
https://vlomonaco.github.io/core50/
(Matlab)数据集统计分布自动发现【Isabel Valera】
http://proceedings.mlr.press/v70/valera17a.html
(建筑物)损害评估数据集【tsunami】
https://github.com/faiton713/ABCDdataset
IndieWeb社交图谱数据集【IndieWeb】
http://www.indiemap.org
DeepMind开源环境/数据集/代码集合【DeepMind】
https://deepmind.com/research/open-source/
鸟叫声数据集【xeno-canto】
http://www.xeno-canto.org
Wolfram数据集仓库
https://datarepository.wolframcloud.com
大型音乐分析数据集FMA
https://github.com/mdeff/fma
(300万)Instacart在线杂货购物数据集【Jeremy Stanley】
https://tech.instacart.com/3-million-instacart-orders-open-sourced-d40d29ead6f2
用于欺诈检测的合成财务数据集【TESTIMON】
https://www.kaggle.com/ntnu-testimon/paysim1
NSynth:大规模高质量音符标记音频数据集
https://magenta.tensorflow.org/datasets/nsynth
LIBSVM格式分类/回归/多标签/字符串数据集
https://www.csie.ntu.edu.tw/~cjlin/libsvmtools/datasets/binary.html
笔记本电脑用logistic回归拟合100G数据集【DmitriySelivanov】
http://dsnotes.com/post/2017-02-07-large-data-feature-hashing-and-online-learning-part-2/
StackExchange近似/重复问题数据集
http://nlp.cis.unimelb.edu.au/resources/cqadupstack/
2010-2017最全KDD CUP赛题回顾及数据集
http://suo.im/2kRoQ1
食谱数据集:带有评级、营养及类别信息的超过2万种食谱【HugoDarwood】
https://www.kaggle.com/hugodarwood/epirecipes
奥斯卡数据集【Academy of Motion Picture Arts and Sciences】
https://www.kaggle.com/theacademy/academy-awards
计算医疗库:(TensorFlow)大型医疗数据集分析与机器学习建模【AkshayBhat】
https://github.com/AKSHAYUBHAT/ComputationalHealthcare
聚类数据集
https://cs.joensuu.fi/sipu/datasets/
官方开放气候数据集
https://pan.baidu.com/s/1i52Xarb
全球恐怖袭击事件数据集【START Consortium】
https://www.kaggle.com/START-UMD/gtd
七个机器学习时序数据集
https://machinelearningmastery.com/time-series-datasets-for-machine-learning/
大型众包关系数据库自然语言查询语义解析数据集(8万+查询样本)
http://t.cn/RNMr09n
赛马赔率数据集
http://t.cn/RNf0tXN
新的YELP数据集:包含470万评论和15.6万商家
http://t.cn/RNG6JYi
JMIR数据集专刊《JMIR Data》
http://t.cn/RCIhmvS
用于评价监督机器学习算法的基准数据集
https:// github.com/EpistasisLab/penn-ml-benchmarks
人口普查收入数据集分类
https:// github.com/dformoso/sklearn-classification
日文木版印刷文字识别数据集
http://t.cn/RCZPfYB
多模态二元行为数据集
http://t.cn/RCzFn1g
(TensorFlow)AudioSet音频事件数据集分类模型
GitHub: tensorflow/models/tree/master/audioset
Facebook星际争霸游戏数据集
(TorchCraft可读/365GB/6万多场次/15亿帧画面/近5亿用户操作)
http://t.cn/R9j8AUM
机器学习论文/数据集/工具集锦(日文)
http://t.cn/RKV7x2A
机器学习公司的十大数据搜集策略
http://t.cn/R54rtvd
NLP数据集加载工具集
http://t.cn/RaYwYXl
日语相似词数据集
http://t.cn/RaVFV35
大规模人本完形填空(多选阅读理解)数据集
http://t.cn/Rac2Pey
高质量免费数据集列表
http://t.cn/R6B1aqa
《数据之美》自然语言数据集/代码
http://t.cn/hBOTM4
微软数据集MS MARCO,阅读理解领域的「ImageNet」
http://t.cn/RIMqGBK
AI2科学问答数据集(多选)
http://t.cn/RI5liwJ
常用图像数据集大全
(分类,跟踪,分割,检测等)
1. 搜狗实验室数据集:
http://www.sogou.com/labs/dl/p.html
互联网图片库来自sogou图片搜索所索引的部分数据。其中收集了包括人物、动物、建筑、机械、风景、运动等类别,总数高达2,836,535张图片。对于每张图片,数据集中给出了图片的原图、缩略图、所在网页以及所在网页中的相关文本。200多G
2. http://www.imageclef.org/
IMAGECLEF致力于位图片相关领域提供一个基准(检索、分类、标注等等) Cross Language Evaluation Forum (CLEF) 。从2003年开始每年举行一次比赛.
http://staff.science.uva.nl/~xirong/index.php?n=Main.Dataset