常用数据集

最新推荐文章于 2024-09-03 06:50:25 发布

dejing6575

最新推荐文章于 2024-09-03 06:50:25 发布

阅读量3.7k

点赞数 3

文章标签：数据库人工智能 php

原文链接：http://www.cnblogs.com/weiyinfu/p/8016405.html

版权

本文详细介绍了多个常用的数据集，包括Cifar、Mnist、ImageNet、牛津花卉数据集、COCO、PASCAL VOC、Open Image、Youtube-8M等，涵盖了图像分类、物体检测、人脸识别等多个领域。同时，还提到了一些经典的小型数据集如Iris鸢尾花数据集和推荐系统数据集，适合不同层次和需求的机器学习与人工智能研究。

摘要由CSDN通过智能技术生成

一、Cifar数据集

Hinton参与收集
彩色图像（RGB）
图像尺寸相同
分为两种：Cifar10和Cifar100
用于图片分类

Cifar10包含60000条数据，50000条用于训练，10000条用于测试。这60000条数据中，包含10类，每类6000张图片（5000训练，1000测试）。
Cifar100包含60000条数据，100类图片，每类600张（500训练，100测试）。

每张图片都为3232的RGB图像，故每张图片大小为3232*3=3072B。

CIFAR-10包含10个类别，50,000个训练图像，彩色图像大小：32×32，10,000个测试图像。CIFAR-100与CIFAR-10类似，包含100个类，每类有600张图片，其中500张用于训练，100张用于测试；这100个类分组成20个超类。图像类别均有明确标注。CIFAR对于图像分类算法测试来说是一个非常不错的中小规模数据集。
数据集大小：~170MB
下载地址：
http://www.cs.toronto.edu/~kriz/cifar.html

二、Mnist数据集

NIST名叫“美国国家标准与技术研究院”，该机构收集了两堆手写数字，结构比较混乱，Yann Lecun进行了一些整理，所以叫Mixed NIST。

Yan Lecun 1988年整理收集
二值图像
图像尺寸相同（28*28）

Mnist数据集包含60000张图片，10个类别（0~9共10个数字），每张图片6000张（5000训练，1000测试）。

http://yann.lecun.com/exdb/mnist/index.html

三、ImageNet数据集

1500万张图片，仿照WordNet的形式进行组织。
由斯坦福李飞飞整理，用于替代Pascal和labelMe数据集。

ImageNet数据集可谓是目前影响力最大的数据集，它极大地促进了计算机视觉的发展。根据ImageNet数据集，人们举办了ILSVRC（International Large Scale Visual Recognition Challenge）。该比赛从2010年开始举办，2017年为最后一届，在这8年间，计算机视觉取得空前发展。ILSVRC包括的比赛项目有：

物体检测 Object Detection
物体定位 Object Localization
视频中的物体检测
场景分类 Scene Classification

历年比赛都有重大成果：

2012年，AlexNet（巨大、复杂）
2014年，VGG和GoogleNet（节省空间）
2015年，ResNet（孙剑、何凯明提出残差网络）

四、牛津花卉数据集

Oxford flower dataset

图片尺寸不一，图片来源于网络
有两种数据集：17类的和102类的

Oxford17包括17类花卉，每类80张图片，总共1360张图片。
Oxford102包括102类花卉，每类40~258张图片不等。

五、COCO数据集

COCO(Common Objects in Context)是一个新的图像识别、分割和图像语义数据集，它有如下特点：
1）Object segmentation
2）Recognition in Context
3）Multiple objects per image
4）More than 300,000 images
5）More than 2 Million instances
6）80 object categories
7）5 captions per image
8）Keypoints on 100,000 people
COCO数据集由微软赞助，其对于图像的标注信息不仅有类别、位置信息，还有对图像的语义文本描述，COCO数据集的开源使得近两三年来图像分割语义理解取得了巨大的进展，也几乎成为了图像语义理解算法性能评价的“标准”数据集。
Google开源的开源了图说生成模型show and tell就是在此数据集上测试的，想玩的可以下下来试试哈。
数据集大小：~40GB
下载地址：http://mscoco.org/

六、PASCAL VOC

PASCAL VOC挑战赛是视觉对象的分类识别和检测的一个基准测试，提供了检测算法和学习性能的标准图像注释数据集和标准的评估系统。PASCAL VOC图片集包括20个目录：人类；动物（鸟、猫、牛、狗、马、羊）；交通工具（飞机、自行车、船、公共汽车、小轿车、摩托车、火车）；室内（瓶子、椅子、餐桌、盆栽植物、沙发、电视）。PASCAL VOC挑战赛在2012年后便不再举办，但其数据集图像质量好，标注完备，非常适合用来测试算法性能。
数据集大小：~2GB
下载地址：
http://host.robots.ox.ac.uk/pascal/VOC/voc2012/index.html

七、OPEN Image

过去几年机器学习的发展使得计算机视觉有了快速的进步，系统能够自动描述图片，对共享的图片创造自然语言回应。其中大部分的进展都可归因于 ImageNet 、COCO这样的数据集的公开使用。谷歌作为一家伟大的公司，自然也要做出些表示，于是乎就有了Open Image。
Open Image是一个包含~900万张图像URL的数据集，里面的图片通过标签注释被分为6000多类。该数据集中的标签要比ImageNet（1000类）包含更真实生活的实体存在，它足够让我们从头开始训练深度神经网络。
谷歌出品，必属精品！唯一不足的可能就是它只是提供图片URL，使用起来可能不如直接提供图片方便。
此数据集，笔者也未使用过，不过google出的东西质量应该还是有保障的。
数据集大小：~1.5GB（不包括图片）
下载地址：
https://github.com/openimages/dataset

八、Youtube-8M

Youtube-8M为谷歌开源的视频数据集，视频来自youtube，共计8百万个视频，总时长50万小时，4800类。为了保证标签视频数据库的稳定性和质量，谷歌只采用浏览量超过1000的公共视频资源。为了让受计算机资源所限的研究者和学生也可以用上这一数据库，谷歌对视频进行了预处理，并提取了帧级别的特征，提取的特征被压缩到可以放到一个硬盘中（小于1.5T）。
此数据集的下载提供下载脚本，由于国内网络的特殊原因，下载此数据经常断掉，不过还好下载脚本有续传功能，过一会儿重新连接就能再连上。可以写一个脚本检测到下载中断后就sleep一段时间然后再重新请求下载，这样就不用一直守着了。（截至发文，断断续续的下载，笔者表示还没下完呢……）
数据集大小：~1.5TB
下载地址：https://research.google.com/youtube8m/

九、Iris鸢尾花数据集

Iris也称鸢尾花卉数据集，是一类多重变量分析的数据集。通过花萼长度，花萼宽度，花瓣长度，花瓣宽度4个属性预测鸢尾花卉属于（Setosa，Versicolour，Virginica）三个种类中的哪一类。

数据集特征: 多变量
记录数: 150
领域: 生活
属性特征: 实数
属性数目: 4
捐赠日期 1988-07-01
相关应用: 分类
缺失值? 无
网站点击数: 563347

十、Adult数据集

该数据从美国1994年人口普查数据库抽取而来，可以用来预测居民收入是否超过50K$/year。该数据集类变量为年收入是否超过50k$，属性变量包含年龄，工种，学历，职业，人种等重要信息，值得一提的是，14个属性变量中有7个类别型变量。

数据集特征: 多变量
记录数: 48842
领域: 社会
属性特征: 类别型，整数
属性数目: 14
捐赠日期 1996-05-01
相关应用: 分类
缺失值? 有
网站点击数: 393977

十一、Wine

这份数据集包含来自3种不同起源的葡萄酒的共178条记录。13个属性是葡萄酒的13种化学成分。通过化学分析可以来推断葡萄酒的起源。值得一提的是所有属性变量都是连续变量。

数据集特征: 多变量
记录数: 178
领域: 物理
属性特征: 整数，实数
属性数目: 13
捐赠日期 1991-07-01
相关应用: 分类
缺失值? 无
网站点击数: 337319

十二、Car Evaluation

这是一个关于汽车测评的数据集，类别变量为汽车的测评，（unacc，ACC，good，vgood）分别代表（不可接受，可接受，好，非常好），而6个属性变量分别为「买入价」，「维护费」，「车门数」，「可容纳人数」，「后备箱大小」，「安全性」。值得一提的是6个属性变量全部是有序类别变量，比如「可容纳人数」值可为「2，4，more」，「安全性」值可为「low, med, high」。

数据集特征: 多变量
记录数: 1728
领域: N/A
属性特征: 类别型
属性数目: 6
捐赠日期 1997-06-01
相关应用: 分类
缺失值? 无
网站点击数: 272901