各领域公开数据集下载
金融
沪深股票除权除息、配股增发全量数据,截止 2016.12.31
上证主板日线数据,截止 2017.05.05,原始价、前复权价、后复权价,1260支股票
深证主板日线数据,截止 2017.05.05,原始价、前复权价、后复权价,466支股票
深证中小板日线数据,截止 2017.05.05,原始价、前复权价、后复权价,852支股票
深证创业板日线数据,截止 2017.05.05,原始价、前复权价、后复权价,636支股票
上证A股日线数据,1999.12.09至 2016.06.08,前复权,1095支股票
深证A股日线数据,1999.12.09至 2016.06.08,前复权,1766支股票
深证创业板日线数据,1999.12.09 至2016.06.08,前复权,510支股票
Zillow 网站房地产价值预测竞赛数据【Kaggle竞赛】
Sberbank 俄罗斯房地产价值预测竞赛数据【Kaggle竞赛】
交通
运用卫星数据跟踪亚马逊热带雨林中的人类轨迹竞赛【Kaggle竞赛】
纽约出租车管理委员会官方的乘车数据(2009年-2016年)
商业
Bosch 生产流水线降低次品率竞赛数据【Kaggle竞赛】
Airbnb 新用户的民宿预定预测竞赛数据【Kaggle竞赛】
Grupo Bimbo 面包店库存和销量预测竞赛【Kaggle竞赛】
推荐系统
Book Crossing Large MovieReview
医疗健康
美国国家健康与服务部-国家癌症研究所发起的癌症数据仓库介绍【仅有介绍】
Data ScienceBowl 2017 肺癌识别竞赛数据【数据太大仅有介绍】
SPIE-AAPM-NCIPROSTATEx竞赛第1部分数据(MRI核磁共振影像识别前列腺癌程度数据)SPIE-AAPM-NCIPROSTATEx竞赛第2部分数据(MRI核磁共振影像识别前列腺癌程度数据)RIDER Breast 乳腺癌 MRI 影像数据
从 CT 影像中对肺部影像进行分割并识别肺部容积【Kaggle竞赛】
通过Egg脑电图像预测患者癫痫病发作竞赛【Kaggle竞赛】
图像数据
综合图像
ILSVRC 2014 训练数据(ImageNet的一部分)
PASCAL Visual Object Classes 2012 图像数据
PASCAL Visual Object Classes 2011 图像数据
PASCAL Visual Object Classes 2010 图像数据
80 Million Tiny Image 图像数据【数据太大仅有介绍】
场景图像
Web标签图像
人形轮廓图像
视觉文字识别图像
Street View House Number 门牌号图像数据
NIST Handprinted Forms and Characters 手写英文字符数据
NIST Structured Forms Reference Set of Binary Images (SFRS) 图像数据
NIST Structured Forms Reference Set of Binary Images (SFRS) II 图像数据
特定一类事物图像
Labeled Fishes in the Wild 鱼类图像
Nature Conservancy Fisheries Monitoring 过度捕捞监控图像数据【Kaggle数据】
材质纹理图像
物体分类图像
人脸图像
Labeled Faces in the Wild 人脸数据
Extended Yale Face Database B 人脸数据
FDDB_Face Detection Data Set and Benchmark
NIST Mugshot Identification Database Faces in the Wild 人脸数据
姿势动作图像
HMDB_a large human motion database
Human Actionsand Scenes Dataset
Human Pose Evaluator 人体轮廓识别图像数据
VGG Human Pose Estimation 姿势图像标注数据
指纹识别
NIST Supplemental Fingerprint Card Data (SFCD) 指纹识别数据
NIST Plain and Rolled Images from Paired Fingerprint Cards in 500 pixels per inch 指纹识别数据
NIST Plain and Rolled Images from Paired Fingerprint Cards 1000 pixels per inch 指纹识别数据
其它图像数据
Visual Question Answering V1.0 图像数据
Visual Question Answering V2.0 图像数据
视频数据
综合视频
DAVIS_Densely Annotated Video Segmentation 数据
人类动作视频
Microsoft Research Action 人类动作视频数据
UCF50 Action Recognition 动作识别数据
UCF101 Action Recognition 动作识别数据
Recognition of human actions 动作视频数据
SBU Kinect Interaction 肢体动作视频数据
动作识别
The HMDB-51 dataset(2011) Brown university 大学发布的 HMDB51, 视频多数来源于电影,还有一部分来自公共数据库以及YouTube等网络视频库.数据库包含有6849段样本,分为51类,每类至少包含有101段样本。
UCF-101(2012)
来源为YouTube视频,共计101类动作,13320段视频。共有5个大类的动作:
1)人-物交互;2)肢体运动;3)人-人交互;4)弹奏乐器;5)运动.
Sports1M 包含487类各项运动, 约110万个视频. 此外,Sports1M 的视频长度平均超过 5 分钟,而标签预测的动作可能仅在整个视频的很小一部分时间中发生。 Sports1M 的标注通过分析和 youtube视频相关的文本元数据自动地生成,因此是不准确的。
Kinetics-600是一个大规模,高质量的YouTube视频网址数据集,其中包括各种人的行动。
该数据集由大约50万个视频剪辑组成,涵盖600个人类行为类,每个行为类至少有600个视频剪辑。每个剪辑持续约10秒钟,并标记一个类。所有剪辑都经过了多轮人工注释,每个剪辑都来自单独的YouTube视频。这些行为涵盖了广泛的类别,包括人与物体的互动,如演奏乐器,以及人与人之间的互动,如握手和拥抱。
IBM-MIT联合提出最新百万规模视频动作理解数据集,共有100,0000个视频,
- 每个视频的长度相同,均为3s,
- 每个视频有一个动作标签(后续版本可能拓展为多标签),此处的动作仅为动词,比如“opening”就为一个标签(与之不同,其他数据集经常会采用动名词组的形式如”opening the door”)
- 动作主体可以是人,动物,物体乃至自然现象。数据集的类内差异和类间差异均很大。
- 存在部分或完全依赖于声音信息的动作,如clapping(拍手)
目标检测视频
密集人群视频
Tracking in High Density Crowds 高密度人群视频
其它视频
音频数据
综合音频
Google Audioset 音频数据【数据太大仅有介绍】
语音识别
Room Impulse Response and Noise 语音数据
自然语言处理
First Quora Release Question Pairs 问答数据
Yale Youtube Vedio Text斯坦福问答数据【Kaggle数据】
NIPS会议文章信息数据(1987-2016)【Kaggle数据】
European Parliament Proceedings Parallel Corpus 机器翻译数据
Stanford Sentiment Treebank 词汇数据
社会数据
世界大学排名芝加哥犯罪数据(2001-2017)【Kaagle数据】
世界范围显著地震数据(1965-2016)【Kaagle数据】
希拉里 vs 特朗普竞选期间 Twitter 数据【Kaggle竞赛】
处理后的科研和竞赛数据
Social Computing Data Repository 社交网络数据
根据手机应用软件使用行为预测用户性别年龄竞赛数据【Kaggle竞赛】
人体骨骼关键点检测竞赛数据【ChallengerAI 竞赛】