https://github.com/ty4z2008/Qix/blob/master/dl.md
- 《Fuel》
介绍:Fuel为你的机器学习模型提供数据。他有一个共享如MNIST, CIFAR-10 (图片数据集), Google’s One Billion Words (文字)这类数据集的接口。你使用他来通过很多种的方式来替代自己的数据。
- 《Datasets Used For Benchmarking Deep Learning Algorithms》
介绍:deeplearning.net整理的深度学习数据集列表.
介绍:【语料库】语料库资源汇总
- 《加州大学欧文分校(UCI)机器学习数据集仓库》
介绍:当前加州大学欧文分校为机器学习社区维护着306个数据集。查询数据集
- 《Awesome Public Datasets》
介绍:开放数据集.
- 《A large-scale dataset of manually annotated audio events》
介绍:Google发布大规模音频数据集
- 《Yet Another Computer Vision Index To Datasets (YACVID)》
介绍:计算机视觉的一个较大的数据集索引, 包含387个标签,共收录了314个数据集合,点击标签云就可以找到自己需要的库了.
介绍:计算机视觉数据集不完全汇总
- 《Citation Network Dataset》
介绍:AMiner论文引用数据集(v7:2,244,021 papers and 4,354,534citation relationships)
介绍:雅虎研究院的数据集汇总:包括语言类数据,图与社交类数据,评分与分类数据,计算广告学数据,图像数据,竞赛数据,以及系统类的数据。
- 《Awesome Public Datasets》
介绍: Awesome系列中的公开数据集
- 《Evaluating language identification performance》
介绍:如何在社会媒体上做语言检测?没有数据怎么办?推特官方公布了一个十分难得的数据集:12万标注过的Tweets,有70种语言
- 《WikiTableQuestions: a Complex Real-World Question Understanding Dataset》
介绍:WikiTableQuestions——复杂真实问答数据集
- 《Big Data: 35 Brilliant And Free Data Sources For 2016》
介绍:(2016版)35个超棒的免费大数据源
- 《Datasets for Natural Language Processing》
介绍:自然语言处理NLP数据集列表
- 《Microsoft Academic Graph》
介绍:37G的微软学术图谱数据集.
- 《6 Useful Databases to Dig for Data (and 100 more)》
介绍:适合做数据挖掘的6个经典数据集(及另外100个列表).
- 《Large-scale CelebFaces Attributes (CelebA) Dataset》
介绍:香港中文大学汤晓鸥教授实验室公布的大型人脸识别数据集: Large-scale CelebFaces Attributes(CelebA) Dataset 10K 名人,202K脸部图像,每个图像40余标注属性.