深度学习数据集集锦

计算机视觉

这里写图片描述

MNIST

标签:学术基准 经典 较旧

合理性测试(sanity check)最常用的数据库。规格为 25x25、中心的、B&W 手写数字。用 MNIST 测试非常容易,但不要因为你的模型在 MNIST 运行良好,就认为它事实上可用。

地址

CIFAR 10 & CIFAR 100

标签:经典 较旧

32x32 彩色图像。虽然用得人比以前少了很多,但仍然能用它做有趣的合理性测试。

地址

ImageNet

标签:实用 学术基准 经典

这个用不着介绍,新算法的首选图像数据集。Luke de Oliveira 表示,许多图像 API 公司从 REST 交互界面搞来的标记,与 ImageNet 1000 目录中的 WordNet 层级很接近,让人怀疑。

地址

KITTI

标签:目标检测

地址

FDDB:Face Detection Data Set and Benchmark

标签:人脸识别

地址

CBSR

标签:无

地址

AWS Public Datasets

标签:公开数据集

地址

Tiny Images Dataset

标签:无

地址

Datasets

标签:无

地址

SNAP:Stanford Large Network Dataset Collection

地址

UCI Machine Learning Repository

地址

Datasets:CV ONLINE

标签:无

地址

LSUN

标签:无

场景理解,许多其它附加任务(比如房间布局预估,显着性预测 “saliency prediction”),以及与之关联的竞赛。

地址

PASCAL VOC

标签:学术基准

一般性的图像分割和分类。对于创建现实世界中的图像注解并不是十分有用,但作为基准很不错。

地址

SVHN

标签:学术基准

谷歌街景视图中的住宅号。可以把它当做野生的递归( recurrent) MNIST。

地址

MS COCO

标签:无

一般性的图像理解/说明,有相关竞赛。

地址

Visual Genome

标签:实用

非常细致的视觉知识库,对超过十万张图像有深度注解。

地址

Labeled Faces in the Wild

标签:实用 学术基准 经典 较旧

修剪过的面部区域(使用 Viola-Jones),用一个 name identifier 做过标记。其中每一个展示的人在数据集中有两个图像,这是作为他的子集。开发者经常用它来训练面部匹配系统。 
地址

自然语言

这里写图片描述

Text Classification Datasets

标签:实用 学术基准

来自论文 Zhang et al., 2015。这是有八个文字分类数据集组成的大型数据库。对于新的文字分类基准,它是最常用的。样本大小为 120K 到 3.6M,包括了从二元到 14 阶的问题。来自 DBPedia, Amazon, Yelp, Yahoo!,搜狗和 AG 的数据集。

地址

WikiText

标签:实用 学术基准

源自高品质维基百科文章的大型语言建模语料库。Salesforce MetaMind 维护。

地址

Question Pairs

标签:实用

Quora 发布的第一个数据集,包含副本/语义近似值标记。

地址

SQuAD

标签:实用 学术基准

斯坦福的问答社区数据集——适用范围较广的问题回答和阅读理解数据集。每一个回答都被作为一个 span,或者一段文本。

地址

CMU Q/A Dataset

标签:无

人工创建的仿真陈述问题/回答组合,还有维基百科文章的难度评分。

地址

Maluuba Datasets

标签:实用

为 NLP 研究人工创建的复杂数据集。

地址

Billion Words

标签:实用 学术基准

大型、通用型建模数据集。时常用来训练散布音(distributed)的词语表达,比如 word2vec 或 GloVe。

地址

Common Crawl

标签:实用 学术基准

PB(拍字节)级别的网络爬虫。最经常被用来学习词语嵌入。可从 Amazon S3 免费获取。对于 WWW 万维网的信息采集,是一个比较有用的网络数据集。

地址

bAbi

标签:学术基准 经典

Facebook AI Research (FAIR) 推出的合成阅读理解和问题回答数据集。

地址

The Children’s Book Test

标签:学术基准

Project Gutenberg(一项正版数字图书免费分享工程)儿童图书里提取的成对数据(问题加情境,回答)基准。对问答、阅读理解、仿真陈述(factoid)查询比较有用。

地址

Stanford Sentiment Treebank

标签:学术基准 经典 较旧

标准的情绪数据集,对每一句话每一个节点的语法树,都有细致的情感注解。

地址

20 Newsgroups

标签:经典 较旧

一个较经典的文本分类数据集。通常作为纯粹分类或者对 IR / indexing 算法验证的基准,在这方面比较有用。

地址

Reuters

标签:经典 较旧

较老的、基于纯粹分类的数据集。文本来自于路透社新闻专线。常被用于教程之中。

地址

##IMDB

标签:经典 较旧

较老的、相对比较小的数据集。用于情绪分类。但在文学基准方面逐渐失宠,让位于更大的数据集。

地址

UCI’s Spambase

标签:经典 较旧

较老的、经典垃圾邮件数据集,源自于 UCI Machine Learning Repository。由于数据集的管理细节,在学习私人订制垃圾信息过滤方面,这会是一个有趣的基准。

地址

语音

这里写图片描述 
大多数语音识别数据库都是专有的——这些数据对其所有公司而言有巨大价值。绝大部分该领域的公共数据集已经很老了。

2000 HUB5 English

标签:学术基准 较旧

只包含英语的语音数据。最近一次被使用是百度的深度语音论文。

地址

LibriSpeech

标签:学术基准

有声图书数据集,包含文字和语音。接近 500 个小时的清楚语音,来自于多名朗读者和多个有声读物,根据图书章节来组织。

地址

VoxForge

标签:实用 学术基准

带口音英语的清晰语音数据集。如果你需要有强大的不同口音、语调识别能力,会比较有用。

地址

TIMIT

标签:学术基准 经典

只含英语的语音识别数据集。

地址

CHIME

标签:实用

含大量噪音的语音识别挑战杯数据集。它包含真实、模拟和清晰的录音:真实,是因为该数据集包含四个说话对象在四个不同吵闹环境下接近 9000 段的录音;模拟,是通过把多个环境与语音结合来生成;清晰,是指没有噪音的清楚录音。

地址

TED-LIUM

标签:无

TED 演讲的音频转录。包含 1495 场 TED 演讲,以及它们的完整字幕文本。

地址

推荐和排名系统

这里写图片描述

Netflix Challenge

标签:经典 较旧

第一个 Kaggle 模式的数据挑战。由于盗版问题只能获得非官方版本。

地址

MovieLens

标签:实用 学术基准 经典

不同大小的电影点评数据——一般作为协同过滤的基准。

地址

Million Song Dataset

标签:无

Kaggle 上的大型、富含原数据的开源数据集。对于试验混合推荐系统有价值。

地址

Last.fm

标签:实用

音乐推荐数据集,并关联相关社交网络和其他元数据。对混合系统有用处。

地址

网络和图

这里写图片描述

Amazon Co-Purchasing 和 Amazon Reviews

标签:学术基准

从亚马逊“买了这个的用户还买了XXX”功能抓取的数据,还有相关商品的评价数据。对于试验网络中的推荐系统有价值。

地址1

地址2

Friendster 社交网络数据集

标签:无

在成为游戏网站之前,Friendster 发布了 103,750,348 名用户朋友名单的匿名数据。

地址

地理空间数据

这里写图片描述

OpenStreetMap

标签:实用

整个地球的矢量数据,处于免费协议下。它的旧版本包含美国人口统计部门的 TIGER 数据。

地址

Landsat8

标签:实用

整个地球表面的卫星拍照,每隔几周更新一次。

地址

NEXRAD

标签:实用

多普勒天气雷达对美国大气情况的扫描。

地址

Ref:[1] http://www.leiphone.com/news/201702/Can849ZwMlp66QBR.html

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
深度学习数据集预处理是深度学习算法中非常重要的一步。数据预处理的目的是为了提高深度学习算法的性能和效果。在数据预处理中,常用的方法包括零均值化(中心化)、数据归一化(normalization)、主成分分析(PCA)和白化(whitening)等。\[1\] 零均值化(中心化)是将数据的均值调整为0,这样可以消除数据的偏差。数据归一化是将数据的范围缩放到一个固定的区间,常用的方法有将数据缩放到0到1之间或者将数据标准化为均值为0,方差为1的分布。主成分分析(PCA)是一种降维的方法,通过线性变换将原始数据映射到一个新的坐标系中,使得新的坐标系中的数据具有最大的方差。白化是对数据进行线性变换,使得变换后的数据具有相互独立且方差为1的特性。 在进行数据预处理时,需要注意一些事项。首先,要根据具体的问题和数据集选择合适的预处理方法。其次,要确保数据预处理的过程不会引入额外的噪声或失去重要的信息。最后,要注意在训练集和测试集上使用相同的数据预处理方法,以保持一致性。 总之,深度学习数据集预处理是提高深度学习算法性能的重要步骤,通过合适的数据预处理方法可以提高算法的准确性和效果。\[2\]\[3\] #### 引用[.reference_title] - *1* *2* *3* [深度学习——数据预处理篇](https://blog.csdn.net/LLyj_/article/details/87606704)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^insertT0,239^v3^insert_chatgpt"}} ] [.reference_item] [ .reference_list ]

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值