深度学习领域语义分割常用数据集：PASCAL VOC 2007 ,2012 NYUDv2 SUNRGBD CityScapes CamVid SIFT-Flow 7大数据集介绍

最新推荐文章于 2024-08-23 08:48:16 发布

Keep_Trying_Go

最新推荐文章于 2024-08-23 08:48:16 发布

阅读量4.7k

点赞数 3

分类专栏：学习中的一点总结文章标签：深度学习人工智能计算机视觉

本文链接：https://blog.csdn.net/Keep_Trying_Go/article/details/125938575

版权

学习中的一点总结专栏收录该内容

90 篇文章 38 订阅

订阅专栏

（2）数据集下载http://host.robots.ox.ac.uk/pascal/VOC/voc2007/#testdata

1.常用数据集适用场景

语义分割常用数据集
数据集	主题	类别	训练	验证	测试	总数
SUNRGBD	室内场景	37	2666	2619	5050	10335
NYUDv2	室内场景	40	795	654	-	1449
PASCAL VOC 2007	综合场景	20	5011	5823	4952	15786
PASCAL VOC 2012	综合场景	20	1464	1449	-	2913
CityScapes	道路场景	30	2975	500	1525	5000
CamVid	道路场景	11	367	100	233	700
SIFT-Flow	自然场景	33	-	-	-	2688

2.SUNRGBD 数据集

（1）数据集介绍

数据集由四个不同的传感器捕获，包含 10,000 张 RGB-D 图像，其规模与 PASCAL VOC 相似。整个数据集经过密集注释，包括 146,617 个 2D 多边形和 58,657 个具有准确对象方向的 3D 边界框，以及场景的 3D 房间布局和类别。

3D 对象检测是场景理解的一项基本任务。在这项任务中，主要专注于预测现实世界维度中的 3D 边界框，以包含对象的全部范围。测试数据由 2860 张新获取的 RGB-D 图像组成，这些图像的真实边界框不公开。我们使用现有的 SUNRGB-D 数据集作为训练数据。此挑战赛由 CVPR 中的LSUN 挑战赛主办。

视频介绍：

http://rgbd.cs.princeton.edu/sunrgbd_comp.mp4

（2）数据集下载

http://rgbd.cs.princeton.edu/challenge.html

（3）数据集类别

wall      墙
floor     地板
cabinet   内阁
bed       床
chair     椅子
sofa      沙发
table     卓子
door      门
window    窗户
bookshelf 书架
picture   图片
counter   柜台
blinds    百叶窗
desk      书桌
shelves   货架
curtain   窗帘
dresser   梳妆台
pillow    枕头
mirror    镜子
floor_mat 地板垫
clothes   衣服
ceiling   天花板
books     书
fridge    冰箱
tv        电视
paper     纸张
towel     毛巾
shower_curtain 沐浴帘
box       盒子
whiteboard 白板
person    人
night_stand 夜间看台
toilet     坐便器
sink       下沉
lamp        灯
bathtub     浴盆
bag         纸袋

（4）数据集的标注

三维对象方向：

三维对象边框：

场景分类：

语义分割：

3.PASCAL VOC 2007数据集

（1）数据集介绍

PASCAL VOC挑战赛（The PASCAL Visual Object Classes ）是一个世界级的计算机视觉挑战赛，PASCAL全称：Pattern Analysis, Statical Modeling and Computational Learning，是一个由欧盟资助的网络组织。PASCAL VOC挑战赛主要包括以下几类：图像分类(Object Classification)，目标检测(Object Detection)，目标分割(Object Segmentation)，行为识别(Action Classification) 等。

PASCAL VOC数据集为图像识别和分类提供了一整套标准化的优秀的数据集，从2005年到2012年每一年都会举行一场图像识别Challenge.

PASCAL 2007作为标准的数据集，是衡量图片分类识别能力的基准。Faster-RCNN,YOLO系列都是以此数据集为样式样例。包含了20个类别数。

（2）数据集下载
http://host.robots.ox.ac.uk/pascal/VOC/voc2007/#testdata

（3）数据集包含类别

aeroplane  飞机
bicycle  自行车
bird  鸟
boat  船
bottle  瓶
bus  公交车
car  汽车
cat  猫
chair 椅子
cow  母牛
dining table  餐桌
dog  狗
horse  马
motorbike  摩托车  
person  人
potte dplant  盆栽植物
sheep  羊
sofa  沙发
train  火车
tv monitor  电视显示器

图像的目标统计

（4）数据集文件结构

和下面介绍的PASCAL VOC 2012数据集文件结构差不多的。

4.PASCAL VOC 2012数据集

（1）数据集介绍

（2）数据集下载

http://host.robots.ox.ac.uk/pascal/VOC/voc2012/#devkit

（3）数据集包含类别

aeroplane  飞机
bicycle  自行车
bird  鸟
boat  船
bottle  瓶
bus  公交车
car  汽车
cat  猫
chair 椅子
cow  母牛
dining table  餐桌
dog  狗
horse  马
motorbike  摩托车  
person  人
potte dplant  盆栽植物
sheep  羊
sofa  沙发
train  火车
tv monitor  电视显示器

图像包含目标统计

（4）数据集文件结构

Annotations文件中的.XML文件信息：

图片分割的信息

图片信息：

图片分割信息：

5.CityScapes 数据集

（1）数据集介绍

Cityscapes拥有5000张在城市环境中驾驶场景的图像（2975train，500 val,1525test）。它具有19个类别的密集像素标注（97％coverage），其中8个具有实例级分割。Cityscapes数据集，即城市景观数据集，这是一个新的大规模数据集，其中包含一组不同的立体视频序列，记录在50个不同城市的街道场景。

城市景观数据集中于对城市街道场景的语义理解图片数据集，该大型数据集包含来自50个不同城市的街道场景中记录的多种立体视频序列，除了20000个弱注释帧以外，还包含5000帧高质量像素级注释。因此，数据集的数量级要比以前的数据集大的多。Cityscapes数据集共有fine和coarse两套评测标准，前者提供5000张精细标注的图像，后者提供5000张精细标注外加20000张粗糙标注的图像。

该数据集主要是：

（1）评价视觉算法在城市场景语义理解的主要任务中的性能:像素级、实例级、全景语义标注任务；

（2）支持旨在利用大量(弱)注释数据的研究，例如用于训练深度神经网络。

标签任务：https://www.cityscapes-dataset.com/benchmarks/#scene-labeling-task

特征（数据集的整体结构）

多边形注释

密集语义分割
车辆和人的实例分割

复杂

30个类别
有关所有类的列表，以下已给出数据集的类别名称。

多样性

50个城市
几个月（春、夏、秋）
白天
良好/中等天气条件
手动选择的帧
- 大量动态对象
- 多变的场景布局
- 变化的背景体积
5 000 张带有精细注释的注释图像，如下图

20 000 张带有粗略注释的带注释图像，如下图

https://www.cityscapes-dataset.com/examples/#videos

第一个视频包含大约 1000 张带有高质量注释的图像。第二个视频使用相应的右立体视图可视化预先计算的深度图。最后一个视频是从长视频记录中提取的，并将 GPS 位置可视化为数据集元数据的一部分。

元数据

前面和后面的视频帧。每个带注释的图像是30 帧视频片段（1.8 秒）中的第 20个图像
对应的右立体视图
GPS坐标
来自车辆里程计的自我运动数据
来自车辆传感器的外部温度

其他研究人员的扩展

人的边界框注释
增加了雾和雨的图像

基准套件和评估服务器

像素级语义标注
实例级语义标注
全景语义标注

标注原则：

* 标记的前景对象绝不能有孔洞，即，如果有一些“透过”某个前景对象可见的背景，则它被认为是前景的一部分。这也适用于与两个或更多类高度混合的区域：它们被标记为前景类。示例：房屋或天空前的树叶（所有的树）、透明的车窗（所有的汽车）。

（2）官网地址

https://www.cityscapes-dataset.com/

（3）数据集的类别

对应中文名称：

CityScapes 数据集类别定义
分组	类别名称
flat-平地	路，人行道，停车场+，轨道+
human-人	人，骑手
vehicle-交通工具	汽车，卡车，公交车，在轨车，摩托车，自行车，大篷车+，拖车+
construction-建筑	建筑物，墙，栅栏，护栏+，桥+，隧道+
object-物体	电线杆，杆组+，交通标志，交通灯
nature-自然	植被，地形
sky-天空	天空
void-空的	地面+，动态+，静止+

注：

* 单实例注释可用。但是，如果不能清楚地看到这些实例之间的边界，则将整个人群/组标记在一起并注释为组，例如汽车组。
+ 此标签不包括在任何评估中并被视为无效（或在车牌作为车辆安装的情况下）。

关于CityScapes 数据集文件结构，读者可自行到官网下载（有点大）。

6.CamVid数据集

（1）数据集介绍

CamVid（The Cambridge-driving Labeled Video Database）数据集由剑桥大学工程系于2008年发布，相关论文介绍《Segmentation and Recognition Using Structure from Motion Point Clouds》,是第一个具有目标类别语义标签的视频集合。数据库提供了32个ground truth语义标签，将每个像素与语义类别之一相关联。该数据库解决了对实验数据的需求，以定量评估新兴算法。数据是从驾驶汽车的角度拍摄的，驾驶场景增加了观察目标的数量和异质性。

（2）数据集下载

来自视频的类别标签图片：

http://mi.eng.cam.ac.uk/research/projects/VideoRec/CamVid/data/LabeledApproved_full.zip

https://pan.baidu.com/s/1E50QplXMcZISlFV5RN4CLg

（3）数据集包含类别

数据集包括 700 张精准标注的图片用于强监督学习，可分为训练集、验证集、测试集。同时，在 CamVid 数据集中通常使用 11 种常用的类别来进行分割精度的评估.

CamVid数据集类别
Group(组)	Classes(类别)
Persons(人)	pedestrian(行人)
Vehicals(交通工具)	car(汽车),bicyclist(自行车)
Constructions(建筑物)	fence(围墙),building(建筑物)
Sky(天空)	sky(天空)
Object(目标)	pole(电线杆),symbol(交通标志)
nature(自然)	tree(树木)
flat(平地)	sidewalk(行人道),road(路)

类别标签颜色：

64 128 64	Animal
192 0 128	Archway
0 128 192	Bicyclist
0 128 64	Bridge
128 0 0		Building
64 0 128	Car
64 0 192	CartLuggagePram
192 128 64	Child
192 192 128	Column_Pole
64 64 128	Fence
128 0 192	LaneMkgsDriv
192 0 64	LaneMkgsNonDriv
128 128 64	Misc_Text
192 0 192	MotorcycleScooter
128 64 64	OtherMoving
64 192 128	ParkingBlock
64 64 0		Pedestrian
128 64 128	Road
128 128 192	RoadShoulder
0 0 192		Sidewalk
192 128 128	SignSymbol
128 128 128	Sky
64 128 192	SUVPickupTruck
0 0 64		TrafficCone
0 64 64		TrafficLight
192 64 128	Train
128 128 0	Tree
192 128 192	Truck_Bus
64 0 64		Tunnel
192 192 0	VegetationMisc
0 0 0		Void
64 192 0	Wall

类别细分

类别数量分布：

（4）数据集文件结构

7.SIFT-Flow数据集

（1）数据集介绍

SIFT Flow是一个包含2688个图像的数据集，具有像素标签对于33个语义类别（“桥”、“山”、“太阳”），以及三个几何类别（“水平”、“垂直”和“天空”）。

（2）数据集下载

https://pan.baidu.com/s/1dFxaAtj

（3）数据集类别

awning     雨蓬
balcony    阳台
bird       鸟
boat       船
bridge     桥
building   建筑
bus        大巴车
car        小汽车
cow        牛
crosswalk  十字路口
desert     沙漠
door       门
fence      栅栏
field      牧场
grass      草
moon       月亮
mountain   山
person     人
plant      植物
pole       杆
river      河流
road       公路
rock       岩石
sand       沙滩
sea        海
sidewalk   人行道
sign       指示牌
sky        天空
staircase  楼梯
streetlight路灯
sun        太阳
tree       树
window     窗户

8.NYUDv2 数据集

（1）数据集介绍

NYU-Depth V2 数据集由来自各种室内场景的视频序列组成，这些视频序列由 Microsoft Kinect的 RGB 和深度相机记录。它的特点：

1449个密集标记的对齐 RGB 和深度图像对
来自3个城市的464个新场景
407,024 个新的未标记帧
每个对象都标有一个类和一个实例编号（cup1、cup2、cup3 等）

数据集有几个组成部分：

标签：视频数据的子集，伴随着密集的多类标签。该数据也经过预处理以填充缺失的深度标签。
Raw：Kinect 提供的原始 rgb、深度和加速度计数据。
工具箱：用于操作数据和标签的有用功能。

（2）数据集下载

https://cs.nyu.edu/~silberman/datasets/nyu_depth_v2.html

https://cs.nyu.edu/~silberman/datasets/

（3）数据集类别

wall        墙
floor       地板
cabinet     内阁
bed         床
chair       椅子
sofa        沙发
table       卓子
door        门
window      窗子
bookshelf   书架
picture     图片
counter     柜台
blinds      百叶窗
desk        书桌
shelves     货架
curtain     窗帘
dresser     梳妆台
pillow      枕头
mirror      镜子
floor mat   地板垫
clothes     衣服
ceiling     天花板
books       书
refridgerator 制冷剂发生器
television   电视机
paper        纸张
towel        毛巾
shower curtain 沐浴帘
box          盒子
whiteboard   白板
person       人
night stand  床头柜
toilet       坐便器
sink         下沉
lamp          灯
bathtub       浴盆
bag           纸袋
otherstructure 其他结构
otherfurniture 其他家具
otherprop      其他支柱

注：读者如果想要更多的了解上面的数据集，需要读者自己根据上面给出的官网连接去研究。