lfw数据集_资源推荐：深度学习开放数据集

最新推荐文章于 2020-12-03 22:31:27 发布

weixin_39934257

最新推荐文章于 2020-12-03 22:31:27 发布

阅读量514

点赞数

文章标签： lfw数据集 lsun数据集 mscoco数据集任意线段集生成多边形深度学习如何统一数据集的格式

点击上方△头像可进入主页

DeepLearning4J(DL4J)是一套基于Java语言的神经网络工具包，可以构建、训练和部署神经网络，其整合了一些深度学习开放数据集。

自然图像数据集

MNIST：手写数字：最常用的合理性检验数据集，由黑白手写数字图像组成，图像大小为25x25，数字居中显示。MNIST是一项比较简单的任务，通过MNIST测试不一定表明模型本身能有效运作。
CIFAR10 / CIFAR100：32×32自然图像数据集，10或100种类别。目前已不再普遍使用，但还是可以用来进行合理性检验。
Caltech 101：101类物体的图片。
Caltech 256：256类物体的图片。
STL-10数据集：一个用于开发无监督特征学习、深度学习、自学习算法的图像识别数据集。与CIFAR-10相似但有些改动。
街景门牌号码(SVHN)数据集: 来自谷歌街景的门牌号码图像，可将其视作自然的循环式MNIST数据集。
NORB：以不同照明及摆放方式摄制的玩具模型的双目图像。
Pascal VOC：通用图像分割/分类数据集，对建立实际图像标注网络的作用有限，但很适合作为基线。
Labelme：大型已标注图像数据集。
ImageNet：各类新算法实际使用的图像数据集。ImageNet采用包含1000种类别的WordNet分类层级，而许多图像API公司的REST接口提供的标签似乎都与ImageNet的体系颇为相似。
LSUN：用于场景理解和多项辅助任务(房间布局估测、显著性预测等)的竞赛数据集。
MS COCO：通用图像理解/描述生成的竞赛数据集。
COIL 20：360度旋转拍摄的各类物体图像。
COIL100 ：360度旋转拍摄的各类物体图像。
谷歌开放图像数据集：汇集了900万条图像URL链接，经创作共用协议授权，所有图像“均已用6000多种类别的标签进行标注”。

脸部图像数据集

自然脸部检测(LFW)数据集：包含13000幅经裁剪的脸部区域图像(采用Viola-Jones检测框架)，标记了图中人的姓名。数据集中的一部分人有两幅图像，人们常用它训练脸部匹配系统。
UMD Faces：已标注的人脸图像数据集，包括来自8501个人的367920幅脸部图像。
CASIA WebFace：包含453453幅人脸图像的数据集，经人脸检测后共识别出超过10575个身份。需要进行一些筛选来提高质量。
MS-Celeb-1M：100万幅世界名人图像。需要进行一些筛选才能在深度神经网络上取得最佳结果。
Olivetti：一些人的不同脸部图像。
Multi-Pie：CMU的Multi-PIE人脸数据库
Face-in-Action
JACFEE：日本人和高加索人不同情绪的脸部表情
FERET：脸部识别技术数据库
mmifacedb：MMI脸部表情数据库
IndianFaceDatabase
耶鲁人脸数据库和耶鲁人脸数据库B)。

视频数据集

Youtube-8M：用于视频理解研究的大型多样化已标记视频数据集。

文本数据集

20个新闻组数据集：分类任务，将出现的词映射至新闻组ID。文本分类的经典数据集之一，通常可以用于纯分类算法的基准测试，或者用于验证任意一种IR/索引算法。
路透社新闻数据集：(较老)纯分类用途的新闻电讯文本数据集。常用于教程。
Penn Treebank：用于下一词预测或下一字预测。
UCI垃圾邮件数据库Spambase：(较老)来自著名的UCI机器学习库的经典垃圾邮件数据集。该数据集经过细致的审编，因此可以作为个性化垃圾邮件筛选学习的基线。
广播新闻数据集：用于下一词预测的经典大型文本数据集。
文本分类数据集：来自Zhang等人，2015；八个内容丰富的文本分类数据集，可用于新文本分类基线的基准测试。样例大小为120K至3.6M，问题所涉及的类别从两个到14个不等。数据集内容来自DBPedia、亚马逊、Yelp、雅虎和AG。
WikiText：取自高质量维基百科文章的大型语言模型语料库，由Salesforce MetaMind进行审编。
SQuAD：斯坦福问答数据集——用途广泛的问题回答及阅读理解数据集，每项问题的答案都是一段文本。
十亿词数据集：大型通用语言模型数据集，常用于训练Word2Vec等词的分布式表示。
Common Crawl：万兆字节级的网页爬取数据集——最常用于学习词向量。可通过亚马逊S3免费获取。数据集的内容从万维网爬取获得，因此也可以用作互联网的数据集。
谷歌图书Ngram数据集：取自谷歌图书的连续词数据，是探索一个词何时开始被广泛使用的简易方法。
Yelp公开数据集：Yelp商户、评论及用户数据的子集，用于自然语言处理(NLP)。

人工数据集

Arcade Universe：－一个人工数据集生成器，图像包括各种电子游戏形象，比如俄罗斯方块中的五连/四连方块。这一生成器基于O. Breleux的bugland数据集生成器。
受BabyAISchool的构想启发的一系列数据集
BabyAIShapesDatasets：分辨三种简单的形状
BabyAIImageAndQuestionDatasets：一个“问题－图像－回答”数据集
为对深度学习架构开展实证评价研究而生成的数据集(DeepVsShallowComparisonICML2007)：
MnistVariations：在MNIST数据集中引入可控变化
RectanglesData：区分宽的和高的长方形
ConvexNonConvex：区分凸多边形和凹多边形
BackgroundCorrelation：控制有噪声的MNIST背景中的像素关联程度。

更多公开数据集请查看链接：https://deeplearning4j.org/cn/opendata

专栏简介：码上一课每日不定时更新，更新内容主要为人工智能与深度学习领域的论文开源源代码，用知识修炼心灵，以智慧对话世界，在这里，持续感受人工智能技术的魅力。

专栏推荐：

►「码上十点」CVPR2018论文源代码链接分享

►「码上十点」十月份机器学习最火的四篇文章

►「码上一课」快而准，经典的轻量级深度神经网络(论文代码)

►「码上一课」2018计算机视觉顶会论文及源代码分享

► 人脸识别资源推荐：20款人脸检测/识别的API、库和软件

weixin_39934257

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
lfw数据集_资源推荐：深度学习开放数据集

点击上方△头像可进入主页DeepLearning4J(DL4J)是一套基于Java语言的神经网络工具包，可以构建、训练和部署神经网络，其整合了一些深度学习开放数据集。自然图像数据集MNIST：手写数字：最常用的合理性检验数据集，由黑白手写数字图像组成，图像大小为25x25，数字居中显示。MNIST是一项比较简单的任务，通过MNIST测试不一定表明模型本身能有效运作。CIFAR10 / CIFAR1...
复制链接

扫一扫