标识别,人脸识别等常用数据集

参考博客: https://www.cnblogs.com/weiyinfu/p/8016405.html#32

常用数据集

一、Cifar数据集

  • Hinton参与收集
  • 彩色图像(RGB)
  • 图像尺寸相同
  • 分为两种:Cifar10和Cifar100
  • 用于图片分类

Cifar10包含60000条数据,50000条用于训练,10000条用于测试。这60000条数据中,包含10类,每类6000张图片(5000训练,1000测试)。
Cifar100包含60000条数据,100类图片,每类600张(500训练,100测试)。

每张图片都为3232的RGB图像,故每张图片大小为3232*3=3072B。

CIFAR-10包含10个类别,50,000个训练图像,彩色图像大小:32×32,10,000个测试图像。CIFAR-100与CIFAR-10类似,包含100个类,每类有600张图片,其中500张用于训练,100张用于测试;这100个类分组成20个超类。图像类别均有明确标注。CIFAR对于图像分类算法测试来说是一个非常不错的中小规模数据集。
数据集大小:~170MB
下载地址:
http://www.cs.toronto.edu/~kriz/cifar.html

二、Mnist数据集

NIST名叫“美国国家标准与技术研究院”,该机构收集了两堆手写数字,结构比较混乱,Yann Lecun进行了一些整理,所以叫Mixed NIST。

  • Yan Lecun 1988年整理收集
  • 二值图像
  • 图像尺寸相同(28*28)

Mnist数据集包含60000张图片,10个类别(0~9共10个数字),每张图片6000张(5000训练,1000测试)。

http://yann.lecun.com/exdb/mnist/index.html

三、ImageNet数据集

1500万张图片,仿照WordNet的形式进行组织。
由斯坦福李飞飞整理,用于替代Pascal和labelMe数据集。

ImageNet数据集可谓是目前影响力最大的数据集,它极大地促进了计算机视觉的发展。根据ImageNet数据集,人们举办了ILSVRC(International Large Scale Visual Recognition Challenge)。该比赛从2010年开始举办,2017年为最后一届,在这8年间,计算机视觉取得空前发展。ILSVRC包括的比赛项目有:

  • 物体检测 Object Detection
  • 物体定位 Object Localization
  • 视频中的物体检测
  • 场景分类 Scene Classification

历年比赛都有重大成果:

  • 2012年,AlexNet(巨大、复杂)
  • 2014年,VGG和GoogleNet(节省空间)
  • 2015年,ResNet(孙剑、何凯明提出残差网络)

四、牛津花卉数据集

Oxford flower dataset

  • 图片尺寸不一,图片来源于网络
  • 有两种数据集:17类的和102类的

Oxford17包括17类花卉,每类80张图片,总共1360张图片。
Oxford102包括102类花卉,每类40~258张图片不等。

五、COCO数据集

COCO(Common Objects in Context)是一个新的图像识别、分割和图像语义数据集,它有如下特点:
1)Object segmentation
2)Recognition in Context
3)Multiple objects per image
4)More than 300,000 images
5)More than 2 Million instances
6)80 object categories
7)5 captions per image
8)Keypoints on 100,000 people
COCO数据集由微软赞助,其对于图像的标注信息不仅有类别、位置信息,还有对图像的语义文本描述,COCO数据集的开源使得近两三年来图像分割语义理解取得了巨大的进展,也几乎成为了图像语义理解算法性能评价的“标准”数据集。
Google开源的开源了图说生成模型show and tell就是在此数据集上测试的,想玩的可以下下来试试哈。
数据集大小:~40GB
下载地址:http://mscoco.org/

六、PASCAL VOC

PASCAL VOC挑战赛是视觉对象的分类识别和检测的一个基准测试,提供了检测算法和学习性能的标准图像注释数据集和标准的评估系统。PASCAL VOC图片集包括20个目录:人类;动物(鸟、猫、牛、狗、马、羊);交通工具(飞机、自行车、船、公共汽车、小轿车、摩托车、火车);室内(瓶子、椅子、餐桌、盆栽植物、沙发、电视)。PASCAL VOC挑战赛在2012年后便不再举办,但其数据集图像质量好,标注完备,非常适合用来测试算法性能。
数据集大小:~2GB
下载地址:
http://host.robots.ox.ac.uk/pascal/VOC/voc2012/index.html

七、OPEN Image

过去几年机器学习的发展使得计算机视觉有了快速的进步,系统能够自动描述图片,对共享的图片创造自然语言回应。其中大部分的进展都可归因于 ImageNet 、COCO这样的数据集的公开使用。谷歌作为一家伟大的公司,自然也要做出些表示,于是乎就有了Open Image。
Open Image是一个包含~900万张图像URL的数据集,里面的图片通过标签注释被分为6000多类。该数据集中的标签要比ImageNet(1000类)包含更真实生活的实体存在,它足够让我们从头开始训练深度神经网络。
谷歌出品,必属精品!唯一不足的可能就是它只是提供图片URL,使用起来可能不如直接提供图片方便。
此数据集,笔者也未使用过,不过google出的东西质量应该还是有保障的。
数据集大小:~1.5GB(不包括图片)
下载地址:
https://github.com/openimages/dataset

八、Youtube-8M

Youtube-8M为谷歌开源的视频数据集,视频来自youtube,共计8百万个视频,总时长50万小时,4800类。为了保证标签视频数据库的稳定性和质量,谷歌只采用浏览量超过1000的公共视频资源。为了让受计算机资源所限的研究者和学生也可以用上这一数据库,谷歌对视频进行了预处理,并提取了帧级别的特征,提取的特征被压缩到可以放到一个硬盘中(小于1.5T)。
此数据集的下载提供下载脚本,由于国内网络的特殊原因,下载此数据经常断掉,不过还好下载脚本有续传功能,过一会儿重新连接就能再连上。可以写一个脚本检测到下载中断后就sleep一段时间然后再重新请求下载,这样就不用一直守着了。(截至发文,断断续续的下载,笔者表示还没下完呢……)
数据集大小:~1.5TB
下载地址:https://research.google.com/youtube8m/

九、Iris鸢尾花数据集

Iris也称鸢尾花卉数据集,是一类多重变量分析的数据集。通过花萼长度,花萼宽度,花瓣长度,花瓣宽度4个属性预测鸢尾花卉属于(Setosa,Versicolour,Virginica)三个种类中的哪一类。

数据集特征: 多变量
记录数: 150
领域: 生活
属性特征: 实数
属性数目: 4
捐赠日期 1988-07-01
相关应用: 分类
缺失值? 无
网站点击数: 563347

十、Adult数据集

该数据从美国1994年人口普查数据库抽取而来,可以用来预测居民收入是否超过50K,属性变量包含年龄,工种,学历,职业,人种等重要信息,值得一提的是,14个属性变量中有7个类别型变量。

数据集特征: 多变量
记录数: 48842
领域: 社会
属性特征: 类别型,整数
属性数目: 14
捐赠日期 1996-05-01
相关应用: 分类
缺失值? 有
网站点击数: 393977

十一、Wine

这份数据集包含来自3种不同起源的葡萄酒的共178条记录。13个属性是葡萄酒的13种化学成分。通过化学分析可以来推断葡萄酒的起源。值得一提的是所有属性变量都是连续变量。

数据集特征: 多变量
记录数: 178
领域: 物理
属性特征: 整数,实数
属性数目: 13
捐赠日期 1991-07-01
相关应用: 分类
缺失值? 无
网站点击数: 337319

十二、Car Evaluation

这是一个关于汽车测评的数据集,类别变量为汽车的测评,(unacc,ACC,good,vgood)分别代表(不可接受,可接受,好,非常好),而6个属性变量分别为「买入价」,「维护费」,「车门数」,「可容纳人数」,「后备箱大小」,「安全性」。值得一提的是6个属性变量全部是有序类别变量,比如「可容纳人数」值可为「2,4,more」,「安全性」值可为「low, med, high」。

数据集特征: 多变量
记录数: 1728
领域: N/A
属性特征: 类别型
属性数目: 6
捐赠日期 1997-06-01
相关应用: 分类
缺失值? 无
网站点击数: 272901

十三、著名的UCI

http://archive.ics.uci.edu/ml/index.php

加州大学欧文(尔湾)分校(UCI)University of California,Irvine是一所四年制公立大学,成立于1965年。它虽然是加州大学各成员学院中历史最短的一所,但排名却紧追伯克利、洛杉矶之后,列全美最好的公立学校前十名之一。加州大学尔湾分校除了拥有崭新优美的建筑外,教职人员皆具有深厚的专业背景,其中有三人为诺贝尔奖的获得者。UCI最好的学科是批判文学,生物学、社会生态学、英文、经济和政治科学,因为生物科学是全大学最好和学生选修最多的学科,不少有志将来念医科的青年人,都希望能在这里修读生物学。此外,加州尔湾分校有47%学生是亚裔美国人,包括不少在美国落地生根的中国人、日本人、南韩人、新马泰人等.

十四、音乐相关数据集

十五、其它图像相关数据集

十六、人造数据集

十七、人脸数据集

十八、文本数据集

二十、推荐系统数据集

  • MovieLens: Two datasets available from http://www.grouplens.org. The first dataset has 100,000 ratings for 1682 movies by 943 users, subdivided into five disjoint subsets. The second dataset has about 1 million ratings for 3900 movies by 6040 users. 
  • Jester: This dataset contains 4.1 million continuous ratings (-10.00 to +10.00) of 100 jokes from 73,421 users.
  • Netflix Prize: Netflix released an anonymised version of their movie rating dataset; it consists of 100 million ratings, done by 480,000 users who have rated between 1 and all of the 17,770 movies.
  • Book-Crossing dataset: This dataset is from the Book-Crossing community, and contains 278,858 users providing 1,149,780 ratings about 271,379 books.

二十一、其它数据集

二十二、推荐系统常用数据集(二)

  • 推荐系统常用的:
  • 1)MovieLens
  • MovieLens数据集中,用户对自己看过的电影进行评分,分值为1~5。MovieLens包括两个不同大小的库,适用于不同规模的算法.小规模的库是943个独立用户对1682部电影作的10000次评分的数据;大规模的库是6040个独立用户对3900部电影作的大约100万次评分。
  • 2)EachMovie
  • HP/Compaq的DEC研究中心曾经在网上架设EachMovie电影推荐系统对公众开放.之后,这个推荐系统关闭了一段时间,其数据作为研究用途对外公布,MovieLens的部分数据就是来自于这个数据集的.这个数据集有72916个用户对l628部电影进行的2811983次评分。早期大量的协同过滤的研究工作都 是基于这个数据集的。2004年HP重新开放EachMovie,这个数据集就不提供公开下载了。
  • 3)BookCrossing
  • 这个数据集是网上的Book-Crossing图书社区的278858个用户对271379本书进行的评分,包括显式和隐式的评分。这些用户的年龄等人口统计学属性(demographic feature)都以匿名的形式保存并供分析。这个数据集是由Cai-Nicolas Ziegler使用爬虫程序在2004年从Book-Crossing图书社区上采集的。
  • 4)Jester Joke
  • Jester Joke是一个网上推荐和分享笑话的网站。这个数据集有73496个用户对100个笑话作的410万次评分。评分范围是-10~10的连续实数。这些数据是由加州大学伯克利分校的Ken Goldberg公布的。
  • 5)Netflix
  • 这个数据集来自于电影租赁网址Netflix的数据库。Netflix于2005年底公布此数据集并设立百万美元的奖金(netflix prize),征集能够使其推荐系统性能上升10%的推荐算法和架构。这个数据集包含了480189个匿名用户对大约17770部电影作的大约lO亿次评分。
  • 6)Usenet Newsgroups
  • 这个数据集包括20个新闻组的用户浏览数据。最新的应用是在KDD2007上的论文。新闻组的内容和讨论的话题包括计算机技术、摩托车、篮球、政治等。用户们对这些话题进行评价和反馈。
  • 7)UCI知识库
  • UCI知识库是Blake等人在1998年开放的一个用于机器学习和评测的数据库,其中存储大量用于模型训练的标注样本。
  • 8) http://snap.stanford.edu/na09/resources.html
  • 9) http://archive.ics.uci.edu/ml/
  • 10) http://www.ituring.com.cn/article/details/1188
  • 转自: http://www.cnblogs.com/zz-boy/archive/2012/08/27/2658063.html

二十三、公开人脸数据集

本页面收集到目前为止可以下载到的人脸数据库,可用于训练人脸深度学习模型。

人脸识别

数据库描述用途获取方法
WebFace10k+人,约500K张图片非限制场景链接
FaceScrub530人,约100k张图片非限制场景链接
YouTube Face1,595个人 3,425段视频非限制场景、视频链接
LFW5k+人脸,超过10K张图片标准的人脸识别数据集链接
MultiPIE337个人的不同姿态、表情、光照的人脸图像,共750k+人脸图像限制场景人脸识别链接 需购买
MegaFace690k不同的人的1000k人脸图像新的人脸识别评测集合链接
IJB-A 人脸识别,人脸检测链接
CAS-PEAL1040个人的30k+张人脸图像,主要包含姿态、表情、光照变化限制场景下人脸识别链接
Pubfig200个人的58k+人脸图像非限制场景下的人脸识别链接

wyfAbout

常用数据集

一、Cifar数据集

  • Hinton参与收集
  • 彩色图像(RGB)
  • 图像尺寸相同
  • 分为两种:Cifar10和Cifar100
  • 用于图片分类

Cifar10包含60000条数据,50000条用于训练,10000条用于测试。这60000条数据中,包含10类,每类6000张图片(5000训练,1000测试)。
Cifar100包含60000条数据,100类图片,每类600张(500训练,100测试)。

每张图片都为3232的RGB图像,故每张图片大小为3232*3=3072B。

CIFAR-10包含10个类别,50,000个训练图像,彩色图像大小:32×32,10,000个测试图像。CIFAR-100与CIFAR-10类似,包含100个类,每类有600张图片,其中500张用于训练,100张用于测试;这100个类分组成20个超类。图像类别均有明确标注。CIFAR对于图像分类算法测试来说是一个非常不错的中小规模数据集。
数据集大小:~170MB
下载地址:
http://www.cs.toronto.edu/~kriz/cifar.html

二、Mnist数据集

NIST名叫“美国国家标准与技术研究院”,该机构收集了两堆手写数字,结构比较混乱,Yann Lecun进行了一些整理,所以叫Mixed NIST。

  • Yan Lecun 1988年整理收集
  • 二值图像
  • 图像尺寸相同(28*28)

Mnist数据集包含60000张图片,10个类别(0~9共10个数字),每张图片6000张(5000训练,1000测试)。

http://yann.lecun.com/exdb/mnist/index.html

三、ImageNet数据集

1500万张图片,仿照WordNet的形式进行组织。
由斯坦福李飞飞整理,用于替代Pascal和labelMe数据集。

ImageNet数据集可谓是目前影响力最大的数据集,它极大地促进了计算机视觉的发展。根据ImageNet数据集,人们举办了ILSVRC(International Large Scale Visual Recognition Challenge)。该比赛从2010年开始举办,2017年为最后一届,在这8年间,计算机视觉取得空前发展。ILSVRC包括的比赛项目有:

  • 物体检测 Object Detection
  • 物体定位 Object Localization
  • 视频中的物体检测
  • 场景分类 Scene Classification

历年比赛都有重大成果:

  • 2012年,AlexNet(巨大、复杂)
  • 2014年,VGG和GoogleNet(节省空间)
  • 2015年,ResNet(孙剑、何凯明提出残差网络)

四、牛津花卉数据集

Oxford flower dataset

  • 图片尺寸不一,图片来源于网络
  • 有两种数据集:17类的和102类的

Oxford17包括17类花卉,每类80张图片,总共1360张图片。
Oxford102包括102类花卉,每类40~258张图片不等。

五、COCO数据集

COCO(Common Objects in Context)是一个新的图像识别、分割和图像语义数据集,它有如下特点:
1)Object segmentation
2)Recognition in Context
3)Multiple objects per image
4)More than 300,000 images
5)More than 2 Million instances
6)80 object categories
7)5 captions per image
8)Keypoints on 100,000 people
COCO数据集由微软赞助,其对于图像的标注信息不仅有类别、位置信息,还有对图像的语义文本描述,COCO数据集的开源使得近两三年来图像分割语义理解取得了巨大的进展,也几乎成为了图像语义理解算法性能评价的“标准”数据集。
Google开源的开源了图说生成模型show and tell就是在此数据集上测试的,想玩的可以下下来试试哈。
数据集大小:~40GB
下载地址:http://mscoco.org/

六、PASCAL VOC

PASCAL VOC挑战赛是视觉对象的分类识别和检测的一个基准测试,提供了检测算法和学习性能的标准图像注释数据集和标准的评估系统。PASCAL VOC图片集包括20个目录:人类;动物(鸟、猫、牛、狗、马、羊);交通工具(飞机、自行车、船、公共汽车、小轿车、摩托车、火车);室内(瓶子、椅子、餐桌、盆栽植物、沙发、电视)。PASCAL VOC挑战赛在2012年后便不再举办,但其数据集图像质量好,标注完备,非常适合用来测试算法性能。
数据集大小:~2GB
下载地址:
http://host.robots.ox.ac.uk/pascal/VOC/voc2012/index.html

七、OPEN Image

过去几年机器学习的发展使得计算机视觉有了快速的进步,系统能够自动描述图片,对共享的图片创造自然语言回应。其中大部分的进展都可归因于 ImageNet 、COCO这样的数据集的公开使用。谷歌作为一家伟大的公司,自然也要做出些表示,于是乎就有了Open Image。
Open Image是一个包含~900万张图像URL的数据集,里面的图片通过标签注释被分为6000多类。该数据集中的标签要比ImageNet(1000类)包含更真实生活的实体存在,它足够让我们从头开始训练深度神经网络。
谷歌出品,必属精品!唯一不足的可能就是它只是提供图片URL,使用起来可能不如直接提供图片方便。
此数据集,笔者也未使用过,不过google出的东西质量应该还是有保障的。
数据集大小:~1.5GB(不包括图片)
下载地址:
https://github.com/openimages/dataset

八、Youtube-8M

Youtube-8M为谷歌开源的视频数据集,视频来自youtube,共计8百万个视频,总时长50万小时,4800类。为了保证标签视频数据库的稳定性和质量,谷歌只采用浏览量超过1000的公共视频资源。为了让受计算机资源所限的研究者和学生也可以用上这一数据库,谷歌对视频进行了预处理,并提取了帧级别的特征,提取的特征被压缩到可以放到一个硬盘中(小于1.5T)。
此数据集的下载提供下载脚本,由于国内网络的特殊原因,下载此数据经常断掉,不过还好下载脚本有续传功能,过一会儿重新连接就能再连上。可以写一个脚本检测到下载中断后就sleep一段时间然后再重新请求下载,这样就不用一直守着了。(截至发文,断断续续的下载,笔者表示还没下完呢……)
数据集大小:~1.5TB
下载地址:https://research.google.com/youtube8m/

九、Iris鸢尾花数据集

Iris也称鸢尾花卉数据集,是一类多重变量分析的数据集。通过花萼长度,花萼宽度,花瓣长度,花瓣宽度4个属性预测鸢尾花卉属于(Setosa,Versicolour,Virginica)三个种类中的哪一类。

数据集特征: 多变量
记录数: 150
领域: 生活
属性特征: 实数
属性数目: 4
捐赠日期 1988-07-01
相关应用: 分类
缺失值? 无
网站点击数: 563347

十、Adult数据集

该数据从美国1994年人口普查数据库抽取而来,可以用来预测居民收入是否超过50K,属性变量包含年龄,工种,学历,职业,人种等重要信息,值得一提的是,14个属性变量中有7个类别型变量。

数据集特征: 多变量
记录数: 48842
领域: 社会
属性特征: 类别型,整数
属性数目: 14
捐赠日期 1996-05-01
相关应用: 分类
缺失值? 有
网站点击数: 393977

十一、Wine

这份数据集包含来自3种不同起源的葡萄酒的共178条记录。13个属性是葡萄酒的13种化学成分。通过化学分析可以来推断葡萄酒的起源。值得一提的是所有属性变量都是连续变量。

数据集特征: 多变量
记录数: 178
领域: 物理
属性特征: 整数,实数
属性数目: 13
捐赠日期 1991-07-01
相关应用: 分类
缺失值? 无
网站点击数: 337319

十二、Car Evaluation

这是一个关于汽车测评的数据集,类别变量为汽车的测评,(unacc,ACC,good,vgood)分别代表(不可接受,可接受,好,非常好),而6个属性变量分别为「买入价」,「维护费」,「车门数」,「可容纳人数」,「后备箱大小」,「安全性」。值得一提的是6个属性变量全部是有序类别变量,比如「可容纳人数」值可为「2,4,more」,「安全性」值可为「low, med, high」。

数据集特征: 多变量
记录数: 1728
领域: N/A
属性特征: 类别型
属性数目: 6
捐赠日期 1997-06-01
相关应用: 分类
缺失值? 无
网站点击数: 272901

十三、著名的UCI

http://archive.ics.uci.edu/ml/index.php

加州大学欧文(尔湾)分校(UCI)University of California,Irvine是一所四年制公立大学,成立于1965年。它虽然是加州大学各成员学院中历史最短的一所,但排名却紧追伯克利、洛杉矶之后,列全美最好的公立学校前十名之一。加州大学尔湾分校除了拥有崭新优美的建筑外,教职人员皆具有深厚的专业背景,其中有三人为诺贝尔奖的获得者。UCI最好的学科是批判文学,生物学、社会生态学、英文、经济和政治科学,因为生物科学是全大学最好和学生选修最多的学科,不少有志将来念医科的青年人,都希望能在这里修读生物学。此外,加州尔湾分校有47%学生是亚裔美国人,包括不少在美国落地生根的中国人、日本人、南韩人、新马泰人等。

十四、音乐相关数据集

十五、其它图像相关数据集

十六、人造数据集

  • Arcade Universe – An artificial dataset generator with images containing arcade games sprites such as tetris pentomino/tetromino objects. This generator is based on the O. Breleux’s bugland dataset generator.
  • A collection of datasets inspired by the ideas from BabyAISchool:
  • Datasets generated for the purpose of an empirical evaluation of deep architectures (DeepVsShallowComparisonICML2007):

    十七、人脸数据集

    二十、推荐系统数据集

    二十一、其它数据集

    二十二、推荐系统常用数据集(二)

    推荐系统常用的:

    1)MovieLens

    MovieLens数据集中,用户对自己看过的电影进行评分,分值为1~5。MovieLens包括两个不同大小的库,适用于不同规模的算法.小规模的库是943个独立用户对1682部电影作的10000次评分的数据;大规模的库是6040个独立用户对3900部电影作的大约100万次评分。

    2)EachMovie

    HP/Compaq的DEC研究中心曾经在网上架设EachMovie电影推荐系统对公众开放.之后,这个推荐系统关闭了一段时间,其数据作为研究用途对外公布,MovieLens的部分数据就是来自于这个数据集的.这个数据集有72916个用户对l628部电影进行的2811983次评分。早期大量的协同过滤的研究工作都 是基于这个数据集的。2004年HP重新开放EachMovie,这个数据集就不提供公开下载了。

    3)BookCrossing

    这个数据集是网上的Book-Crossing图书社区的278858个用户对271379本书进行的评分,包括显式和隐式的评分。这些用户的年龄等人口统计学属性(demographic feature)都以匿名的形式保存并供分析。这个数据集是由Cai-Nicolas Ziegler使用爬虫程序在2004年从Book-Crossing图书社区上采集的。

    4)Jester Joke

    Jester Joke是一个网上推荐和分享笑话的网站。这个数据集有73496个用户对100个笑话作的410万次评分。评分范围是-10~10的连续实数。这些数据是由加州大学伯克利分校的Ken Goldberg公布的。

    5)Netflix

    这个数据集来自于电影租赁网址Netflix的数据库。Netflix于2005年底公布此数据集并设立百万美元的奖金(netflix prize),征集能够使其推荐系统性能上升10%的推荐算法和架构。这个数据集包含了480189个匿名用户对大约17770部电影作的大约lO亿次评分。

    6)Usenet Newsgroups

    这个数据集包括20个新闻组的用户浏览数据。最新的应用是在KDD2007上的论文。新闻组的内容和讨论的话题包括计算机技术、摩托车、篮球、政治等。用户们对这些话题进行评价和反馈。

    7)UCI知识库

    UCI知识库是Blake等人在1998年开放的一个用于机器学习和评测的数据库,其中存储大量用于模型训练的标注样本。

    其他:

    8) http://snap.stanford.edu/na09/resources.html

    9) http://archive.ics.uci.edu/ml/

    10) http://www.ituring.com.cn/article/details/1188

    转自: http://www.cnblogs.com/zz-boy/archive/2012/08/27/2658063.html

    二十三、公开人脸数据集

    本页面收集到目前为止可以下载到的人脸数据库,可用于训练人脸深度学习模型。

    人脸识别

    数据库描述用途获取方法
    WebFace10k+人,约500K张图片非限制场景链接
    FaceScrub530人,约100k张图片非限制场景链接
    YouTube Face1,595个人 3,425段视频非限制场景、视频链接
    LFW5k+人脸,超过10K张图片标准的人脸识别数据集链接
    MultiPIE337个人的不同姿态、表情、光照的人脸图像,共750k+人脸图像限制场景人脸识别链接 需购买
    MegaFace690k不同的人的1000k人脸图像新的人脸识别评测集合链接
    IJB-A 人脸识别,人脸检测链接
    CAS-PEAL1040个人的30k+张人脸图像,主要包含姿态、表情、光照变化限制场景下人脸识别链接
    Pubfig200个人的58k+人脸图像非限制场景下的人脸识别链接

    人脸检测

数据库描述用途获取方法
FDDB2845张图片中的5171张脸标准人脸检测评测集链接
IJB-A 人脸识别,人脸检测链接
Caltech10k Web Faces10k+人脸,提供双眼和嘴巴的坐标位置人脸点检测链接

人脸表情

数据库描述用途获取方法
CK+137个人的不同人脸表情视频帧正面人脸表情识别链接

人脸年龄

数据库描述用途获取方法
IMDB-WIKI包含:IMDb中20k+个名人的460k+张图片 和维基百科62k+张图片, 总共: 523k+张图片名人年龄、性别链接
Adience包含2k+个人的26k+张人脸图像人脸性别,人脸年龄段(8组)链接
CACD20002k名人160k张人脸图片人脸年龄链接

人脸性别

数据库描述用途获取方法
IMDB-WIKI包含:IMDb中20k+个名人的460k+张图片 和维基百科62k+张图片, 总共: 523k+张图片名人年龄、性别链接
Adience包含2k+个人的26k+张人脸图像人脸性别,人脸年龄段(8组)链接

人脸关键点检测

数据库描述用途获取方法
数据库描述用途获取方法

人脸其它

数据库描述用途获取方法
CeleBrayA200k张人脸图像40多种人脸属性人脸属性识别获取方法

GitHub:DeepFace

二十四、ORL数据集

http://www.cl.cam.ac.uk/research/dtg/attarchive/facedatabase.html

  • 来自著名的AT&T(贝尔实验室)。
  • 用于人脸识别,40个人,每人10张图片,每张图片92*112,256级灰度图

AT&T(American Telephone & Telegraph,美国电话电报公司),是一家美国电信公司,美国第二大移动运营商。美国电话电报公司有8个主要部门 :贝尔实验室、商业市场集团、数据系统公司 、通用市场集团 、网络运营集团、网络系统集团、技术系统集团、公司国际集团.

二十五、其它数据集

二十六、数据挖掘常用数据集

常用的基本上UCI和w3c的。关于源代码,网上有很多公开源码的算法包,例如最为著名的Weka,MLC++等。Weka还在不断的更新其算法,下载地址:
http://www.cs.waikato.ac.nz/ml/weka/
UCI收集的机器学习数据集
ftp://pami.sjtu.edu.cn
http://www.ics.uci.edu/~mlearn/\MLRepository.htm

statlib
http://liama.ia.ac.cn/SCILAB/scilabindexgb.htm
http://lib.stat.cmu.edu/

样本数据库
http://kdd.ics.uci.edu/
http://www.ics.uci.edu/~mlearn/MLRepository.html

关于基金的数据挖掘的网站
http://www.gotofund.com/index.asp

http://lans.ece.utexas.edu/~strehl/

reuters数据集
http://www.research.att.com/~lewis/reuters21578.html

各种数据集:
http://kdd.ics.uci.edu/summary.data.type.html
http://www.mlnet.org/cgi-bin/mlnetois.pl/?File=datasets.html
http://lib.stat.cmu.edu/datasets/
http://dctc.sjtu.edu.cn/adaptive/datasets/
http://fimi.cs.helsinki.fi/data/
http://www.almaden.ibm.com/software/quest/Resources/index.shtml
http://miles.cnuce.cnr.it/~palmeri/datam/DCI/

进行文本分类&WEB
http://www-2.cs.cmu.edu/afs/cs/project/theo-11/www/naive-bayes.html

http://www.w3.org/TR/WD-logfile-960221.html
http://www.w3.org/Daemon/User/Config/Logging.html#AccessLog
http://www.w3.org/1998/11/05/WC-workshop/Papers/bala2.html
http://www-2.cs.cmu.edu/afs/cs.cmu.edu/project/theo-11/www/wwkb/
http://www.web-caching.com/traces-logs.html
http://www-2.cs.cmu.edu/webkb
http://www.cs.auc.dk/research/DP/tdb/TimeCenter/TimeCenterPublications/TR-75.pdf
http://www.cs.cornell.edu/projects/kddcup/index.html

时间序列数据的网址
http://www.stat.wisc.edu/~reinsel/bjr-data/

apriori算法的测试数据
http://www.almaden.ibm.com/cs/quest/syndata.html

数据生成器的链接
http://www.cse.cuhk.edu.hk/~kdd/data_collection.html
http://www.almaden.ibm.com/cs/quest/syndata.html

关联:
http://flow.dl.sourceforge.net/sourceforge/weka/regression-datasets.jar
http://www.almaden.ibm.com/software/quest/Resources/datasets/syndata.html#assocSynData

WEKA:
http://flow.dl.sourceforge.net/sourceforge/weka/regression-datasets.jar
1。A jarfile containing 37 classification problems, originally obtained from the UCI repository
http://prdownloads.sourceforge.net/weka/datasets-UCI.jar
2。A jarfile containing 37 regression problems, obtained from various sources
http://prdownloads.sourceforge.net/weka/datasets-numeric.jar
3。A jarfile containing 30 regression datasets collected by Luis Torgo
http://prdownloads.sourceforge.net/weka/regression-datasets.jar

癌症基因:
http://www.broad.mit.edu/cgi-bin/cancer/datasets.cgi

金融数据:
http://lisp.vse.cz/pkdd99/Challenge/chall.htm

kdnuggets 相关链接数据集(借花献佛了):
http://www.kdnuggets.com/datasets/index.html
另一个人提供的
http://www.cs.toronto.edu/~roweis/data.html
http://kdd.ics.uci.edu/summary.task.type.html
http://www-2.cs.cmu.edu/afs/cs.cmu.edu/project/theo-20/www/data/
http://www-2.cs.cmu.edu/afs/cs.cmu.edu/project/theo-11/www/wwkb/
http://www.phys.uni.torun.pl/~duch/software.html
在下面的网址可以找到reuters数据集
http://www.research.att.com/~lewis/reuters21578.html

以下网址上有各种数据集:
http://kdd.ics.uci.edu/summary.data.type.html

进行文本分类,还有一个数据集是可以用的,即rainbow的数据集
http://www-2.cs.cmu.edu/afs/cs/project/theo-11/www/naive-bayes.html
Download the Financial Data (~17.5M zipped file, ~67M unzipped data)
Download the Medical Data (~2M zipped file, ~6M unzipped data)
http://lisp.vse.cz/pkdd99/Challenge/chall.htm

参考资料

http://www.52ml.net/20458.html
http://blog.csdn.net/prettywhitewolf_xiao/article/details/7265468
http://www.jianshu.com/p/be23b3870d2e
http://deeplearning.net/demos/
http://deeplearning.net/datasets/
https://www.cnblogs.com/alexanderkun/p/4197796.html 这篇博客很全
http://blog.csdn.net/chenriwei2/article/details/50631212

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

  • 5
    点赞
  • 33
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值