25个用于深度学习的开放数据集每个数据科学家必须使用
PRANAV DAR, 2018年3月29日
本文为一键google翻译的结果。
介绍
改善深度学习(或生活中的大多数领域)的关键是练习。从图像处理到语音识别等各种问题的实践。这些问题中的每一个都有其独特的细微差别和方法。
但是你在哪里可以获得这些数据?你现在看到的很多研究论文都使用通常不向公众发布的专有数据集。如果您想学习和应用新获得的技能,这将成为一个问题。
如果您遇到此问题,我们会为您提供解决方案。我们策划了一个公开可用的数据集列表供您阅读。
在本文中,我们列出了一系列高质量数据集,每个深度学习爱好者都应该努力应用和提高他们的技能。 处理这些数据集将使您成为更好的数据科学家,并且您将拥有的学习量在您的职业生涯中将是非常宝贵的。我们还提供了具有最新技术(SOTA)结果的论文供您使用并改进您的模型。
如何使用这些数据集?
第一件事 - 这些数据集的规模很大!因此,请确保您具有快速的互联网连接,对可下载的数据量没有/非常高的限制。
您可以通过多种方式使用这些数据集。您可以使用它们来应用各种深度学习技巧。您可以使用它们来磨练您的技能,了解如何识别和构建每个问题,考虑独特的用例并发布您的发现,供所有人查看!
数据集分为三类 - 图像处理,自然语言处理和音频/语音处理。
让我们深入探讨吧!
图像数据集
MNIST
MNIST是最受欢迎的深度学习数据集之一。它是手写数字的数据集,包含60,000个示例的训练集和10,000个示例的测试集。它是一个很好的数据库,用于在实际数据上尝试学习技术和深度识别模式,同时在数据预处理上花费最少的时间和精力。
大小: ~50 MB
记录数: 10个班级中的70,000张图像
SOTA: 胶囊之间的动态路由
MS-COCO
COCO是一种大规模且丰富的对象检测,分割和字幕数据集。它有几个功能:
- 对象分割
- 在背景下的认可
- 超像素的东西分割
- 330K图像(> 200K标记)
- 150万个对象实例
- 80个对象类别
- 91个东西类别
- 每张图片5个字幕
- 250,000人拥有关键点
尺寸: ~25 GB(压缩)
记录数量: 330K图像,80个对象类别,每个图像5个字幕,250,000个关键点人物
SOTA: 面具R-CNN
ImageNet
ImageNet是根据WordNet层次结构组织的图像数据集。WordNet包含大约100,000个短语,ImageNet平均提供了大约1000个图像来说明每个短语。
尺寸: ~150GB
记录 数:图像总数:~1,500,000; 每个都有多个边界框和各自的类标签
SOTA: 深度神经网络的聚合残差变换
打开图像数据集
Open Images是一个包含近900万个图像URL的数据集。这些图像已经注释了图像级标签,这些标签跨越数千个类。该数据集包含9,011,219个图像的训练集,41,260个图像的验证集和125,436个图像的测试集。
尺寸: 500 GB(压缩)
记录数: 9,011,219张图片,标签超过5k
SOTA:Resnet 101图像分类模型(在V2数据上训练):模型检查点,检查点自述文件,推理代码。
VisualQA
VQA是一个包含有关图像的开放式问题的数据集。这些问题需要理解愿景和语言。该数据集的一些有趣功能包括:
- 265,016张图片(COCO和抽象场景)
- 每张图片至少有3个问题(平均5.4个问题)
- 每个问题10个基本事实答案
- 每个问题3个似是而非(但可能不正确)的答案
- 自动评估指标
大小: 25 GB(压缩)
记录数量: 265,016张图片,每张图片至少3个问题,每个问题10个基本真实答案
SOTA: 视觉问题回答的提示和技巧:2017年挑战中的学习
街景号码(SVHN)
这是用于开发对象检测算法的真实世界图像数据集。这需要最少的数据预处理。它类似于此列表中提到的MNIST数据集,但具有更多标记数据(超过600,000个图像)。该数据是从Google街景中查看的门牌号码中收集的。
尺寸: 2.5 GB
记录数量: 10类中的6,30,420张图片
SOTA: 虚拟对抗训练的分布式平滑
CIFAR-10
该数据集是另一个用于图像分类的数据集。它由10个类的60,000个图像组成(每个类在上图中表示为一行)。总共有50,000个训练图像和10,000个测试图像。数据集分为6个部分 - 5个培训批次和1个测试批次。每批有10,000张图片。
大小: 170 MB
记录数量: 10个类别中的60,000张图像
SOTA: ShakeDrop正规化
时尚MNIST
Fashion-MNIST包括60,000张训练图像和10,000张测试图像。它是一个类似MNIST的时尚产品数据库。开发人员认为MNIST已被过度使用,因此他们将其创建为该数据集的直接替代品。每个图像都是灰度图像,并与10个类别的标签相关联。
大小: 30 MB
记录数: 10个班级中的70,000张图像
SOTA: 随机擦除数据扩充
自然语言处理
IMDB评论
这是电影爱好者的梦想数据集。它适用于二元情感分类,并且具有比该领域中任何先前数据集更多的数据。除了培训和测试评审示例外,还有其他未标记的数据可供使用。还包括原始文本和预处理的文字格式包。
大小: 80 MB
记录数量: 25,000个极地电影评论用于培训,25,000个用于测试
SOTA: 学习结构化文本表示
二十个新闻组
顾名思义,此数据集包含有关新闻组的信息。为了策划这个数据集,从20个不同的新闻组中获取了1000篇Usenet文章。这些文章具有主题行,签名和引号等典型特征。
大小: 20 MB
记录数:来自20个新闻组的20,000条消息
SOTA: 用于文本分类的非常深的卷积网络,
Sentiment140
Sentiment140是可用于情绪分析的数据集。这是一款流行的数据集,非常适合开始您的NLP之旅。情绪已从数据中预先删除。最终数据集具有以下6个特征:
- 推文的极性
- 推文的ID
- 推文的日期
- 查询
- 高音扬声器的用户名
- 推文的文字
大小: 80 MB(压缩)
记录数: 1,60,000条推文
SOTA: 评估最先进的情绪数据集的最新情绪模型
共发现
在上面的ImageNet数据集中提到,WordNet是一个庞大的英语同义词数据库。同义词是同义词组,每个同义词描述不同的概念。WordNet的结构使其成为NLP非常有用的工具。
大小: 10 MB
记录数: 117,000个同义词通过少量“概念关系”链接到其他同义词。
SOTA:Wordnets:最新技术和前景
Yelp评论
这是Yelp发布的用于学习目的的开放数据集。它包含数百万的用户评论,企业属性以及来自多个大都市区的200,000多张图片。这是全球范围内NLP挑战的常用数据集。
大小: 2.66 GB JSON,2.9 GB SQL和7.5 GB照片(全部压缩)
记录数量: 5,200,000条评论,174,000个商业属性,200,000张图片和11个大都市区
SOTA: 周到的卷积
维基百科语料库
此数据集是Wikipedia上的全文集合。它包含来自超过400万篇文章的近19亿个单词。使这个功能强大的NLP数据集的原因是您可以通过单词,短语或段落本身的一部分进行搜索。
大小: 20 MB
记录数: 4,400,000篇文章,包含19亿字
SOTA: 打破Softmax Bottelneck:高级RNN语言模型
博客作者语料库
此数据集包含从数千名博主收集的博客文章,并且已从blogger.com收集。每个博客都作为单独的文件提供。每个博客至少包含200个常用英语单词。
大小: 300 MB
记录数量: 681,288个帖子,超过1.4亿字
SOTA: 用于大规模作者归因的字符级和多通道卷积神经网络
各种语言的机器翻译
该数据集包括四种欧洲语言的培训数据。这里的任务是改进当前的翻译方法。您可以参加以下任何语言对:
- 英汉和中英文
- 英语 - 捷克语和捷克语 - 英语
- 英语 - 爱沙尼亚语和爱沙尼亚语 - 英语
- 英语 - 芬兰语和芬兰语 - 英语
- 英语 - 德语和德语 - 英语
- 英语 - 哈萨克语和哈萨克语 - 英语
- 英语 - 俄语和俄语 - 英语
- 英语 - 土耳其语和土耳其语 - 英语
尺寸: ~15 GB
记录数量:约30,000,000句及其翻译
SOTA: 注意力就是你所需要的
音频/语音数据集
免费口语数字数据集
受MNIST数据集启发的此列表中的另一个条目!创建这个是为了解决识别音频样本中的语音数字的任务。这是一个开放的数据集,所以希望它会随着人们不断提供更多样本而不断增长。目前,它包含以下特征:
- 3位发言者
- 1,500个录音(每个扬声器每个数字50个)
- 英语发音
大小: 10 MB
记录数: 1,500个音频样本
SOTA: 使用样本级CNN架构的基于原始波形的音频分类
免费音乐档案(FMA)
FMA是音乐分析的数据集。数据集包括全长和HQ音频,预先计算的功能以及跟踪和用户级元数据。它是一个开放的数据集,用于评估MIR中的几个任务。下面是数据集包含的csv文件列表及其包含的内容:
tracks.csv
:每个轨道元数据,如ID,标题,艺术家,流派,标签和播放计数,适用于所有106,574首曲目。genres.csv
:所有163个流派ID及其名称和父级(用于推断流派层次结构和顶级流派)。features.csv
:使用librosa提取的常用功能 。echonest.csv
:Echonest (现为 Spotify)为13,129首曲目提供的音频功能 。
尺寸: ~1000 GB
记录数量:约100,000个曲目
SOTA: 学习从音频中识别音乐流派
舞厅
此数据集包含交谊舞音频文件。许多舞蹈风格的一些特征摘录以真实的音频格式提供。 以下是数据集的一些特征:
- 实例总数:698
- 持续时间:约30秒
- 总持续时间:~20940 s
尺寸: 14GB(压缩)
记录数量:约700个音频样本
SOTA: 一种考虑异构音乐风格的多模型方法
百万歌数据集
在百万歌数据集是音频功能和元数据的一百万当代流行音乐曲目可自由可用的集合。 其目的是:
- 鼓励研究可扩展到商业规模的算法
- 提供用于评估研究的参考数据集
- 作为使用API创建大型数据集的快捷方式(例如The Echo Nest)
- 帮助新研究人员开始在MIR领域
数据集的核心是一百万首歌曲的特征分析和元数据。数据集不包含任何音频,仅包含派生特征。可以使用 哥伦比亚大学提供的代码从7digital等服务中获取样本音频。
大小: 280 GB
记录数量: PS - 一百万首歌曲!
SOTA: 百万歌曲数据集挑战推荐系统的初步研究
LibriSpeech
该数据集是一个大约1000小时的英语演讲的大规模语料库。这些数据来自LibriVox项目的有声读物。它已被分段并正确对齐。如果您正在寻找起点,请查看已经准备好的声学模型,这些模型已经过kaldi-asr.org上的数据集培训和适合评估的语言模型,网址为http://www.openslr.org/11/。
尺寸:约60 GB
记录数量: 1000小时的发言时间
SOTA: 带门控系统的基于字母的语音识别
VoxCeleb
VoxCeleb是一个大型说话人识别数据集。它包含了从YouTube视频中提取的1,251名名人的大约100,000个话语。数据主要是性别平衡(男性占55%)。名人跨越各种口音,职业和年龄。开发和测试集之间没有重叠。这是一个有趣的用例,用于隔离和识别语音所属的超级明星。
大小: 150 MB
记录数量: 1,251名名人发表10万次话语
分析Vidhya实践问题
对于您的练习,我们还提供真实的生活问题和数据集,让您的手脏。在本节中,我们列出了DataHack平台上的深度学习练习问题。
Twitter情绪分析
仇恨言论以种族主义和性别歧视的形式在推特上变得令人讨厌,将这些推文与其他推文分开是很重要的。在本练习题中,我们提供的Twitter数据包含正常和讨厌的推文。您作为数据科学家的任务是识别那些讨厌的推文而哪些不是。
大小: 3 MB
记录数: 31,962条推文
印度演员的年龄检测
对于任何深度学习爱好者来说,这都是一项极具挑战性的挑战。该数据集包含数千张印度演员的图像,您的任务是确定他们的年龄。手动选择所有图像并从视频帧中裁剪,导致比例,姿势,表情,照明,年龄,分辨率,遮挡和化妆的高度可变性。
大小: 48 MB(压缩)
记录数:训练集中的19,906个图像和测试集中的6636个图像
SOTA:深入学习 - 年龄检测实践问题的解决方案
城市声音分类
该数据集包含来自10个类别的8000多个城市声音的超过8000个声音摘录。此练习题旨在向您介绍通常的分类场景中的音频处理。
尺寸:训练套装 - 3 GB(压缩),测试装置 - 2 GB(压缩)
记录数量: 来自10个类别的城市声音的8732个标签声音摘录(<= 4s)