camvid数据集介绍_学习图像场景解析的理论和应用（三）人脸解析，人体解析，场景解析，图像分割，街景和室内场景等数据集...-CSDN博客

本文主要介绍包括人脸，人体，场景解析，图像分割，街景和室内场景等公开数据集。

一、人脸解析数据集

A.LFW-PL

地址：http://vis-www.cs.umass.edu/lfw/part_labels/

介绍：LFW-PL数据集有2927张图片，把人脸分成三类，皮肤，头发和背景区域，分别有1500张，927张，500张，图像的分辨率是250*250像素（像素不高，毕竟仅仅是人脸）。

B.helen

地址：http://www.ifp.illinois.edu/~vuongle2/helen/

介绍：它所用的标签比LFW-PL多，包括人脸轮廓，眼睛，眉毛，鼻子，嘴巴等，基于给的标签可以直接转为分割结果，数据集中包含2330张图像（2000+100+300），每张图像为400*400像素。

二、人体解析数据集

A.penn-fudan

地址：http://www.cis.upenn.edu/~jshi/ped_html/

介绍：宾夕法尼亚大学(University of Pennsylvania )和复旦大学史建波组收集整理的数据集，数据集中包括345个人体，高度为180到190个像素，用于行人检测的数据库，里面的图片都取材于校园和城市街区，每一幅图片至少有一个行人。

B.Fashionista 数据集

论文：《Parsing Clothing in Fashion Photographs》

论文地址：http://www.tamaraberg.com/papers/parsingclothing.pdf

介绍：图像总数685张，共分割56类，其中456个训练集，299个测试集。

C.atr,active template regression

论文《Deep Human Parsing with Active Template Regression》

论文地址：https://arxiv.org/pdf/1503.02391.pdf

D.pascal person part

介绍：PASCAL-Person-Part数据集的图片只有6种不同的语义标签，与人相关的也较粗糙.

E.Person-part

论文：《Detect What You Can: Detecting and Representing Objects using Holistic Models and Body Parts》

论文地址：https://arxiv.org/abs/1406.2031

F.lip,look into person

论文：《Look into Person: Self-supervised Structure-sensitive Learning and A New Benchmark for Human Parsing》

论文网址：https://arxiv.org/abs/1703.05446

项目：http://hcp.sysu.edu.cn/lip/index.php

代码：https://github.com/Engineering-Course/LIP_SSL

介绍：这是一个大规模的人体解析数据集，包含50,000张图片（30462训练集，10000验证集，10000测试集），19个带语义的人体部位标签，16个人体姿势关键点。定义9个关节点（头，上身，下身，左臂，右臂，左腿，右腿，左鞋，右鞋）构成一个姿势，使用不同部位区域的中心点作为关节点。标签为帽子、头发、太阳眼镜、脸的构成头部区域，上衣、大衣、围巾构成上身区域，裤子、裙子构成下衣区域，其它同理。

三、场景解析数据集

A.Pascal VOC

网址：http://host.robots.ox.ac.uk/pascal/VOC/

下载：https://pjreddie.com/projects/pascal-voc-dataset-mirror/

介绍：PASCALVOC 数据集是视觉对象的分类识别和检测的一个基准测试，提供了检测算法和学习性能的标准图像注释数据集和标准的评估系统。包含VOC2007（430M），VOC2012（1.9G）两个下载版本。随着作者的去世，2012年这个数据集就停止更新了。 VOC 2012 是VOC2007 数据集的升级版，一共有11530张图片，每张图片都有标注，标注的物体包括人、动物（如猫、狗、岛等）、交通工具（如车、船飞机等）、家具（如椅子、桌子、沙发等）在内的20 个类别。所有的标注图片都有Detection需要的label，但只有部分数据有Segmentation Label。

VOC2007：中包含9963张标注过的图片，由train/val/test三部分组成，共标注出24,640个物体。

VOC2007的test数据label已经公布，之后的没有公布（只有图片，没有label）。

VOC2012：对于检测任务，VOC2012的trainval/test包含08-11年的所有对应图片。 trainval有11540张图片共27450个物体。对于分割任务， VOC2012的trainval包含07-11年的所有对应图片， test只包含08-11。trainval有 2913张图片共6929个物体。

PASCAL VOC为图像识别和分类提供了一整套标准化的优秀的数据集，从2005年到2012年每年都会举行一场图像识别challenge。该挑战的主要目的是识别真实场景中一些类别的物体。在该挑战中，这是一个监督学习的问题，训练集以带标签的图片的形式给出。这些物体包括20类： Person: person Animal: bird, cat, cow, dog, horse, sheep Vehicle: aeroplane, bicycle, boat, bus, car, motorbike, train Indoor: bottle, chair, dining table, potted plant, sofa, tv/monitor

该挑战主要包括三类任务：分类（classification），检测（detection），和分割（segmentation）

B.label me

github：https://github.com/CSAILVision/LabelMeAnnotationTool

项目地址：http://labelme.csail.mit.edu/Release3.0/

介绍：labelme是麻省理工（MIT）的计算机科学和人工智能实验室（CSAIL）研发的图像标注工具（Labelme是斯坦福一个学生的母亲利用休息时间帮儿子做的标注，后来便发展成为数据集），人们可以使用该工具创建定制化标注任务或执行图像标注，项目源代码已经开源。MIT的labelme源代码可以安装到服务器上使用，是一个在线的Javascript图像标注工具，可在任意地方使用，不需要在电脑中安装大型数据集。

该数据集的主要特点包括： 专门为物体分类识别设计，而非仅仅是实例识别 专门为学习嵌入在一个场景中的对象而设计 高质量的像素级别标注，包括多边形框（polygons）和背景标注（segmentation masks） 物体类别多样性大，每种物体的差异性，多样性也大。 所有图像都是自己通过相机拍摄，而非copy 公开的，免费的

C.imagenet

论文：《ImageNet: A Large-Scale Hierarchical Image Database》

下载：http://www.image-net.org/

介绍：ImageNet图像数据集始于2009年，当时李飞飞教授等在CVPR2009上发表了一篇名为《ImageNet: A Large-Scale Hierarchical Image Database》的论文，之后举行了基于ImageNet数据集的7届ImageNet挑战赛(2010年开始)，2017年后，ImageNet由Kaggle(Kaggle公司是由联合创始人兼首席执行官Anthony Goldbloom 2010年在墨尔本创立的，主要是为开发商和数据科学家提供举办机器学习竞赛、托管数据库、编写和分享代码的平台)继续维护。ImageNet是目前世界上图像识别最大的数据库。能够从图片识别物体。ImageNet是一个非常有前景的研究项目，未来用在机器人身上，就可以直接辨认物品和人了。超过1400万的图像URL被ImageNet手动注释，以指示图片中的对象;在至少一百万个图像中，还提供了边界框。ImageNet包含2万多个类别; 一个典型的类别，如“气球”或“草莓”，包含数百个图像。

D.ms coco

下载：http://mscoco.org/（支持Matlab和Python两种下载方式） COCO是一种新的图像识别，分割和加字幕标注的数据集。其主要特征如下

目标分割
通过上下文进行识别
每个图像包含多个目标对象
超过300000个图像
超过2000000个实例
80种对象
每个图像包含5个字幕
包含100000个人的关键点

四、图像分割数据和边缘检测数据集

A.BSD500

论文：《A Database of Human Segmented Natural Images and its Application to Evaluating Segmentation Algorithms and Measuring Ecological Statistics》

下载：http://www.eecs.berkeley.edu/Research/Projects/CS/vision/grouping/BSR/BSR_bsds500.tgz

介绍：数据集共500张图片包含200张训练图，200张侧视图，100张检验图。图像为481*321像素。ground truth是人工标识，以数据库图片id为单位，保存成mat格式文件，一个文件包含多个标记者的标记信息。有轮廓和分割信息，用matlab读取很方便，直接load就行。

五、软分割matting数据集

A.alpha matting

Alpha matting算法研究的是如何将一幅图像中的前景信息和背景信息分离的问题，即抠图。这类问题是数字图像处理与数字图像编辑领域中的一类经典问题，广泛应用于视频编缉与视频分割领域中。 Adobe 王珏等，视频和软分割结果 2009 cvpr 35个图像

B.video matting

2015 bmvc adobe 王珏等 10个视频片段

C.deep matting

论文：《Deep Image Matting》

地址：https://arxiv.org/pdf/1703.03872.pdf

介绍：训练数据集有493个独特的前景目标，49300张影像（N=100），检测数据集有50个独特目标，1000张图片（N=20）。

六、街景解析数据集

A.camvid

下载：http://mi.eng.cam.ac.uk/research/projects/VideoRec/CamVid/

介绍：是最早的第一用于自动驾驶领域的语义分割数据集，发布于2007年末。他们应用自己的图像标注软件在一段10分钟的视频中连续标注了700张图片，这些视频是由安装在汽车仪表盘的摄像机拍摄的，拍摄视角和司机的视角基本一致

B.dus

介绍：这个数据集包括5000灰度图像，其中只有500张标注过的语义分割图片。与其他数据集不同的是，它不包括“自然”这一分类。因为尺寸小，所以它比较适合用来测试语义分割模型的表现效果

C.kitti

论文：http://www.webmail.cvlibs.net/publications/Geiger2012CVPR.pdf

数据集下载：http://www.cvlibs.net/datasets/kitti/index.php

介绍：发布于2009年，KITTI数据集是由德国卡尔斯鲁厄理工学院和芝加哥丰田技术学院联合创办的项目。该数据集中的数据主要是在德国的卡尔斯鲁厄周边的农村和高速公路拍摄而成，每张图象最多显示15辆汽车和30名行人，各自有各种程度的遮挡。数据集是在装有激光雷达的车辆上以10Hz的频率采样进行采集，最终包含389对立体图像和光流图，39.2km视觉测距序列，200k以上的3D标注物体的图像，涵盖了市区、乡村和高速公路等场景，包括图片、视频、雷达数据等数据类型。数据集的语义标签包括： ‘Road’，‘City’，‘Person’，‘Campus’和‘Residential’五大类。

KITTY数据集可以用于评测各种任务，包括立体图像(stereo)，光流(optical flow)，视觉测距(visual odometry)，深度估计(depth prediction)，3D物体检测(object detection)，3D跟踪(tracking)，路面以及车道线检测等。

D.mapillary vista dataset

介绍：是一个街景图片平台，平台注册用户可以共同合作参与去制作更好的地图。他们开放了部分图片数据集并且以像素级精度标注了这些图片。在写这篇文章时，它是世界上最大的做多样化的开源数据集，地理范围跨越了大陆。

E.Apollo街景

下载：http://apolloscape.auto/scene.html

介绍：百度Apollo提供的数据集发布于2018年。数据集中提供的图像分辨率为3384×2710，定义了共26个不同语义项的数据实例（例如汽车、自行车、行人、建筑、路灯等），而且将进一步涵盖更复杂的环境、天气和交通状况等。预计2018年数据集将完整发布包含20万帧的图像数据，包含对应的像素级标注和姿态信息。整个数据集将包含逐像素标注的高分辨率图像序列，以及场景语义分割级别的稠密3D Point的RGB视频。据介绍，ApolloScape是目前行业内环境最复杂、标注最精准、数据量最大的三维自动驾驶公开数据集。ApolloScape的标注精细度上超过同类型的KITTI，Cityscapes数据集，也超过UC Berkley最新发布的BDD100K。

F.Carla

论文：《CARLA: An Open Urban Driving Simulator》

论文地址：http://proceedings.mlr.press/v78/dosovitskiy17a/dosovitskiy17a.pdf github: https://github.com/carla-simulator/carla

官方文档: https://carla.readthedocs.io/en/latest/

视频效果：https://youtu.be/Hp8Dz-Zek2E

介绍：英特尔实验室联合丰田研究院和巴塞罗那计算机视觉中心联合发布 CALRA，用于城市自动驾驶系统的开发、训练和验证的开源模拟器，支持多种传感模式和环境条件的灵活配置，论文中详细评估并比较了三种自动驾驶方法的性能。CARLA包含三个模块的自动驾驶：

① 经典的规则化无人驾驶 
② 端对端模仿学习无人驾驶
③ 端对端强化学习无人驾驶。

CARLA支持感知和控制两个模块，包含城市堵路（有汽车，建筑物，行人和道路指示标志），CARLA提供世界和智能体的接口，客户端API是python命令控制，以类似插槽（socket）的方式连接智能体和服务器。客户端client发送命令和下层指令，直接命令包括转向，加速和刹车，下层命令包括控制服务器的行为和重置仿真器，改变仿真环境和修改传感器参数。CARLA可以调整视觉信息质量和速度。CARLA有两个城镇，TOWN1用来训练，TOWN2用来测试。CARLA包含许多传感器，有RGB摄像头，提供深度信息的摄像头（该深度信息和语义分割，CARLA已经做好了，语义分割有12个种类：道路，道路线，交通灯，行人等等）GPS定位传感器，速度加速度传感器和碰撞传感器等等。

七、室内rgb-d街景数据集

A.nyu v

下载：https://cs.nyu.edu/~silberman/datasets/nyu_depth_v2.html

NYUD V2数据集由1449张640*480的图像组成。

B.sun rgb-d

论文：《SUN RGB-D: A RGB-D Scene Understanding Benchmark Suite》

论文：https://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Song_SUN_RGB-D_A_2015_CVPR_paper.pdf

介绍：数据集由四个不同的传感器捕获，包含10335个rgb-d图像，其规模与pascal voc相似。整个数据集都有密集的注释，包括146617个二维多边形和64595个具有精确对象方向的三维边界框，以及每个图像的三维房间布局和场景类别。

C.scenenet-rgb

论文： SceneNet RGB-D: 5M合成室内轨迹的真实感图像

论文地址：https://robotvault.bitbucket.io/SceneNetRGBD.pdf

介绍：这个数据集的规模非常适合从零开始使用RGB-D输入预训练数据驱动的计算机视觉技术，以前受到NYUv2和SUN RGB-D中相对较小的标记数据集的限制。它还为通过提供完美的相机姿态和深度数据作为SLAM系统的代理来调查3D场景标记任务提供了基础。它带有 500 万张真实感图像的合成室内轨迹的真值数据集。它为语义分割、实例分割和物体检测等场景理解问题以及光流、深度估计、相机姿态估计和三维重建等几何计算机视觉问题提供了像素完美的真值。该数据集通过提供像素完美的表征来细微化已选的环境。