【深度学习】机器学习\深度学习常见相关公开数据集汇总(图像处理相关数据集、自然语言处理相关数据集、语音处理相关数据集)

一、前言

1. 介绍

常来说,深度学习的关键在于实践。从图像处理到语音识别,每一个细分领域都有着独特的细微差别和解决方法。

然而,你可以从哪里获得这些数据呢?现在大家所看到的大部分研究论文都用的是专有数据集,这些专有数据集又通常不会公开。那么,想实践那些最新的理论方法往往就成了难题。

如果你也遇到了这样的问题,接下来我们会提供了一系列可用的公开数据集给大家。

在本文中,我们列出了一系列高质量的数据集,每个深度学习爱好者都可以使用这些数据集来提高自己的能力。应用这些数据集将使您成为一名更好的数据科学家,并且您从中获得的东西将在您的职业生涯中具有无可估量的价值。我们还收录了具有当前最好结果(SOTA)的论文,供您浏览并改进您的模型。

2. 如何使用这些数据集?

首先要做的事:这些数据集的规模很大!所以请确保你的网络够快,确保下载没有任何限制。

有很多种方式可以使用这些数据集。比如:你可以使用它们来锻炼你的各种深度学习方法技巧;你可以使用它们来磨练你的技能,了解如何识别和构建每个问题,思考独特的使用案例和公布你的新发现!

数据集分为三类:图像处理相关数据集,自然语言处理相关数据集和语音处理相关数据集。如下:

二、图像处理相关数据集

1. MNIST:

在这里插入图片描述

  • 官网:http://yann.lecun.com/exdb/mnist/

  • MNIST是最受欢迎的深度学习数据集之一。它是一个手写数字数据集,包含一个60,000个样本的训练集和一个10,000个样本的测试集。这是一个很不错的数据集,它可用于在实际数据中尝试学习技术和深度识别模式,并且它花费极少的时间和精力在数据预处理上。

  • 大小: 约50 MB

  • 数量: 10个类别,70,000张图片

  • SOTA:Dynamic Routing Between Capsules

2. MS-COCO

在这里插入图片描述

  • COCO是一个可用于object detection, segmentation and caption的大型数据集。有以下特点:

    • 目标分割
    • 上下文关系识别
    • 超像素分割
    • 330K图像(> 200K已标记)
    • 150万个目标
    • 80个分类
    • 91种目标
    • 每张图片5个字幕
    • 包含250,000个人(已标记)
  • 官网:https://cocodataset.org/

  • 大小:约25 GB(压缩包)

  • 数量: 330K张图像,80个对象类别,每个图像5个描述,25万个人(已标记)

  • SOTA: Mask R-CNN

3. ImageNet

在这里插入图片描述

4.Open Images Dataset

在这里插入图片描述

  • Open Images Dataset是一个包含超过900万个链接图像的数据集。其中包含9,011,219张图像的训练集,41,260张图像的验证集以及125,436张图像的测试集。它的图像种类跨越数千个类别,且有图像层级的标注框进行注释。

  • 官网:https://github.com/openimages/dataset

  • 大小: 500 GB(压缩包)

  • 数量: 9,011,219张超过5k标签的图像

  • SOTA: Resnet 101 image classification model (trained on V2 data):Model checkpoint, Checkpoint readme, Inference code.

5.VisualQA

在这里插入图片描述

  • VQA是一个包含有关图像的开放式问题的数据集。这些问题需要理解视野和语言。有以下有意思的特点:

    • 265,016张图片(COCO和抽象场景)
    • 每张图片至少有3个问题(平均5.4个问题)
    • 每个问题10个基本事实
    • 每个问题3个似乎合理(但可能不正确)的答案
    • 指标自动评估
  • 官网:http://www.visualqa.org/

  • 大小: 25 GB(压缩包)

  • 数量: 265,016张图片,每张图片至少3个问题,每个问题10个基本事实

  • SOTA: Tips and Tricks for Visual Question Answering: Learnings from the 2017 Challenge

6.The Street View House Numbers (SVHN)

在这里插入图片描述

  • 这是一个为训练目标检测算法而“真实”存在的一个图像数据集–来自于谷歌街景中的房屋号码。它对图像预处理和格式要求较低。与上边提到的MNIST数据集类似,但SVHN包含更多的标记数据(超过600,000个图像)。

  • 官网:http://www.visualqa.org/

  • 大小: 2.5 GB

  • 数量: 10个类别,共6,30,420张图片

  • SOTA:Distributional Smoothing With Virtual Adversarial Training

7.CIFAR-10

在这里插入图片描述

  • 这个数据集是图像分类的另一个神级入门数据集。它由10个类别60,000个图像组成(每个类在上图中表示为一行)。总共有50,000个训练图像和10,000个测试图像。数据集分为6个部分 - 5个训练批次(training batches)和1个测试批次(test batches)。每个批次(batch)有10,000个图像。

  • 官网:http://www.cs.toronto.edu/~kriz/cifar.html

  • 大小:170 MB

  • 数量:10个类别,共60,000张图片

  • SOTA:ShakeDrop regularization

8.Fashion-MNIST

在这里插入图片描述

  • Fashion-MNIST包含60,000个训练图像和10,000个测试图像。它是一个类似MNIST的时尚产品数据库。开发人员认为MNIST已被过度使用,因此他们将其作为该数据集的直接替代品。每张图片都以灰度显示,并与10个类别的标签相关联。

  • 官网:https://github.com/zalandoresearch/fashion-mnist

  • 大小:30 MB

  • 数量:10个类,70,000张图片

  • SOTA:Random Erasing Data Augmentation

三、自然语言处理相关数据集

1.IMDB Reviews

  • 这对电影爱好者来说是一个极棒的数据集。它可用于着二元情感分类,并具有比此领域以前的任何数据集更多的数据。除了用于训练和测试评论数据外,还有更多未标记的数据可供使用。同时该数据集还包含原始文本和预处理单词格式包。

  • 官网:http://ai.stanford.edu/~amaas/data/sentiment/

  • 大小:80 MB

  • 数量:25,000条高质量影评用于训练,25,000条用于测试

  • SOTA:Learning Structured Text Representations

2.Twenty Newsgroups

3.Sentiment140

4.WordNet

  • 在上面的ImageNet数据集中提到,WordNet是一个包含英文synsets的大型数据库。 Synsets是指同义词组,每个描述不同的概念。 WordNet的结构使其成为NLP非常有用的工具。

  • 官网:https://wordnet.princeton.edu/

  • 大小:10 MB

  • 数量:通过少量“概念联系”将117,000个同义词集与其他同义词集相关联。

  • SOTA:Wordnets: State of the Art and Perspectives

5.Yelp Reviews

  • 这是Yelp(美国最大的点评网站)为了学习目的而发布的一个公开数据集。它由数百万用户评论、商业类型和来自多个大型城市的超过20万张照片组成。这在全球都是一个非常常用的NLP挑战级数据集。

  • 官网:https://www.yelp.com/dataset

  • 大小:2.66 GB JSON,2.9 GB SQL and 7.5 GB Photos(全部已压缩)

  • 数量:5,200,000条评论,174,000条商业类型,20万张图片和11个大型城市

  • SOTA:Attentive Convolution

6.The Wikipedia Corpus

7.The Blog Authorship Corpus

8.Machine Translation of Various Languages

  • 该数据集包含四种欧洲语言的训练数据。可用于改进当前的翻译方法。有以下语言互译可供参考:

    • 英汉和汉英
    • 英语 - 捷克语和捷克语 - 英语
    • 英语 - 爱沙尼亚语和爱沙尼亚语 - 英语
    • 英语 - 芬兰语和芬兰语 - 英语
    • 英语 - 德语和德语 - 英语
    • 英语 - 哈萨克语和哈萨克语 - 英语
    • 英文 - 俄文和俄文 - 英文
    • 英语 - 土耳其语和土耳其语 - 英语
  • 大小:约15 GB

  • 官网:http://statmt.org/wmt18/index.html

  • 数量:约30,000,000个句子及其翻译

  • SOTA:Attention Is All You Need

四、语音处理相关数据集

1.Free Spoken Digit Dataset

2.Free Music Archive (FMA)

  • FMA是一个音乐分析数据集。数据集由音频(full-length and HQ),预先计算的特征( pre-computed features)以及音轨和用户级元数据(metadata)组成。它是一个公开数据集,用来评估MIR中的多项任务。以下是其包含的csv文件列表:

    • tracks.csv:包含所有(106,574首)曲目的基本信息–ID,标题,艺术家,流派,标签和播放次数。

    • genres.csv:163种流派的ID(包含名称和之间的关系)

    • features.csv:基本特征(使用librosa提取)。

    • echonest.csv:由Echonest(现在的Spotify)为13129首曲目提供的音频特征。

  • 大小:约1000 GB

  • 官网:https://github.com/mdeff/fma

  • 数量:约100,000曲目(tracks)

  • SOTA:Learning to Recognize Musical Genre from Audio

3.Ballroom

4.Million Song Dataset

在这里插入图片描述

5.LibriSpeech

  • 该数据集是包含约1000小时英语音频的大型语料库。这些数据来自LibriVox项目的有声读物(audiobooks),且已经过分割、对齐处理。如果您恰好想入门这个领域,请查看已准备好的声学模型(已在kaldi-asr.org和语言模型上进行了训练且适合评估),网址为http://www.openslr.org/11/

  • 官网:http://www.openslr.org/12/

  • 大小:约60 GB

  • 数量:1000小时音频

  • SOTA: Letter-Based Speech Recognition with Gated ConvNets

6.VoxCeleb

  • VoxCeleb是一个大型的语音识别数据集。它由来自YouTube视频中的1,251名明星所讲的约10万句话组成。这些数据性别分布均衡(男性占55%),名人跨越不同的口音、职业和年龄,训练集和测试集之间没有重叠。通过这个数据集可以实现一个有趣的应用–区分和识别超级巨星。

  • 大小:150 MB

  • 数量:1,251位名人的100,000条话语

  • SOTA:VoxCeleb: a large-scale speaker identification dataset

五、Supplement

为了帮助练习,我们还提供了来自DataHack平台,三个更贴近生活的题目(包含问题+数据集)供练手。当然,肯定是深度学习相关,如下:

1.Twitter Sentiment Analysis

2.Age Detection of Indian Actors

3.Urban Sound Classification

结束语

如果您知道其他公开数据集,可以告诉我们(说明推荐原因、详细用途等等)。

如果理由充分,我会把它们列入清单。来评论里讨论你们的使用感受吧。深度学习万岁!

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

别出BUG求求了

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值