图像语义分割实验数据集

不会声调的博er

已于 2022-11-02 15:47:45 修改

阅读量1.6k

点赞数

分类专栏：数据集文章标签：目标检测深度学习人工智能

于 2022-10-09 17:03:05 首次发布

本文链接：https://blog.csdn.net/wagnbo/article/details/127229117

版权

数据集专栏收录该内容

1 篇文章 0 订阅

订阅专栏

图像语义分割实验数据集

数据集划分
常用的图像语义分割公共数据集及其基本信息
常用公共数据集

数据集划分

$数据集\left\{ {\begin{matrix} {训练集\left\{ {\begin{matrix} 训练集(Training Set):用于训练模型\\ \\验证集(Validation Set):用于调整和选择模型 \end{matrix}} \right.}\\ \\测试集(Test Set):用于评估最终的模型\end{matrix}} \right.\\$

常用的图像语义分割公共数据集及其基本信息

	数据集	发布年份	应用场景	类别数	数据量	分辨率	训练集	验证集	测试集
1	PASCAL VOC	2012	多种应用	21	9993	不固定	1464	1449	1452
2	PASCALCONTEXT	2014	多种应用	540	N/A	不固定	4998	5105	9637
3	PASCALPART	2014	人体解剖	21	N/A	不固定	10103	10103	9637
4	MS COCO	2014	多种应用	81	328000	不固定	82783	40504	81434
5	ILSVRC	2015	多种应用	2w+	1400w+	不固定	N/A	N/A	N/A
6	KITTI	2013	城市街道场景解析	10	N/A	1226*307	140	N/A	112
7	Cityscapes	2016	城市街道场景解析	30	≈2w	2048*1024	22973	500	N/A
8	Sift Flow	2011		33
9	SBD	2009	户外场景解析	8	N/A	320*210	715	N/A	N/A
10	NYUD v2	2012	室内场景解析	40	40w+	480*640	795	654	N/A
11	SUNRGBD	2015	室内场景解析	37	≈1w	不固定	2666	2619	5050
12	LIP

注：≈表示左右，w+表示万多/多万，N/A表示无法确定

常用公共数据集

（1）PASCAL Visual Object Classes(PASCAL VOC)数据集

该数据集来源于一个由欧盟资助组织的国际计算机视觉挑战赛，该赛事从2005年开始，到2012年为止，每年都会更新发布不同的带标签的图像，竞赛的项目包括分类、检测、分割、人体布局以及动作识别等，数据集涵盖的物体共包括4大类21小类（包含背景类），其中4大类分别为vehicle、household、animal和person。官网地址为：http://host.robots.ox.ac.uk/pascal/VOC/index.html。
http://host.robots.ox.ac.uk/pascal/VOC/voc2012/#devkit
在这里插入图片描述

（2）PASCAL-CONTEXT数据集

该数据集由PASCAL VOC 2010语义分割数据集和Context标注两个部分组成，总共有540个类别，10103张图像，其中，4998张用于训练集，5105张用于验证集，目前最广泛使用的是出现频率最高的前59个类别作为语义标签，其余类别标记为背景，即 background 。官方下载地址为：https://cs.stanford.edu/~roozbeh/pascal-context/。

（3）PASCAL-PART数据集

该数据集是PASCAL VOC 2010的一组附加注释。它超越了原始PASCAL 对象检测任务，为人体每个身体部位提供了分割掩码。同时对没有一致部件集的类别提供轮廓注释。每张图像中目标物体的不同部位都有精确标注，下载地址为：http://roozbehm.info/pascal-parts/pascal-parts.html。

（4）Microsoft Common Objects in Context(MS COCO)数据集

该数据集是目前计算机视觉领域最大的语义分割数据集，共包含80种物体和一个背景类，328,000张图片，2,500,000个物体实例标注和100,000个人体关键部位标注。官方地址为：http://cocodataset.org/#home。

（5）ImageNet Large Scale Visual Recognition Challenge(ILSVRC)数据集

该数据集来自于国际计算机视觉挑战赛，竞赛从2010年开始举办，到2017年截止共7届，比赛项目涉及图像分类、目标定位、（视频）目标检测及场景分类与解析等内容。目前，ImageNet数据集共有14,197,122幅图片，被划分为21,841个类别，其中，有明确的类别和位置标注的图片已超过百万，已广泛应用于图像分割领域，官方下载地址为： http://www.image-net.org/challenges/LSVRC/。

（6）Karlsruhe Institute of Technology and Toyota Technological Institute（KITTI）数据集

该数据集由德国卡尔斯鲁厄理工学院和丰田美国技术研究院联合创办，是目前国际上最大的自动驾驶场景下的计算机视觉算法评测数据集，主要用于评测立体图像、光流、视觉测距、3D物体检测和跟踪等计算机视觉技术在车载环境下的性能。数据集包含市区、乡村和高速公路等场景采集的真实图像数据，每张图片最多可达15辆车和30个行人，还包含各种各种程度的遮挡和截断。官方下载地址为：http://www.cvlibs.net/datasets/kitti/raw_data.php。
下载kitti数据集
1、下载rgb：（tar.gz文件大小：72G）

cd PATH_TO_DOWNLOAD
wget http://datasets.lids.mit.edu/kitti/rgb.tar.gz
tar -xvf rgb.tar.gz

2、下载depth：(tar.gz文件大小：20G)

cd PATH_TO_DOWNLOAD
wget http://datasets.lids.mit.edu/kitti/depth.tar.gz
tar -xvf depth.tar.gz

（7）Cityscapes Dataset(Cityscapes)数据集

该数据集由奔驰公司推动发布，是目前机器视觉领域内公认的最具权威性和专业性的图像分割数据集之一，用于城市场景理解，共包含5000张高质量精细注释图像和20000张粗略注释图像。这些精细注释的图像被分成2975500张，用于训练、验证和测试的1525幅图像。官网地址为：https://www.cityscapes-dataset.com/。或百度云、提取码：aChQ
$cityscapes\left\{ \begin{matrix} gtFine\left\{ \begin{matrix} test \\ train \\ val \end{matrix} \right. \\ leftImg8bit\left\{ \begin{matrix} test \\ train \\ val \end{matrix} \right. \end{matrix} \right.$
在这里插入图片描述

（8）Sift Flow数据集

该数据集主要由街道、山脉、城市、海滩和建筑等8种户外场景组成，适用于图像语义分割研究，共有2688张图片，33种语义类物体和3种地理标签。官网地址为：http://people.csail.mit.edu/celiu/SIFTflow/。

（9）Stanford background dataset(SBD)数据集

该数据集由斯坦福大学创建，适用于评测语义级场景解析算法的性能。共有715张图片，分别是从LabelMe、MSRC、P ASCAL VOC和Geometric Context等现有公共数据集中选择组成的室外场景图，像素大约为320*240，至少包含1个前景对象，并且在图像中具有地平线位置，官网地址为：http://dags.stanford.edu/projects/scenedataset.html。

（10）NYU Depth Dataset V2(NYUDv2)数据集

该数据集由纽约大学创建，提供了各种室内场景数据，主要由微软Kinect数据库的RGB和Depth摄像机记录的一系列表示各种室内场景的视频序列组成，总共包含由1449张标注的RGB图片和深度图像，来自3个城市的464个新场景，407024个新的未标记帧，每个对象都标有一个类和一个实例号(cup1、cup2、cup3等)，官方地址为：https://cs.nyu.edu/~silberman/datasets/nyu_depth_v2.html。

下载nyuv2数据集
(tar.gz文件大小：32G。解压后33G)

cd PATH_TO_DOWNLOAD
wget http://datasets.lids.mit.edu/sparse-to-dense/data/nyudepthv2.tar.gz
tar -xvf nyudepthv2.tar.gz

（11）SUN-RGBD数据集

该数据集主要适用于室内场景理解，由4个不同的传感器捕获而成，共包含10,000张RGB-D图像，其中，146,617个2D多边形标注、58,657个带精准对象方向的3D边界框标注以及一个3D空间布局和场景类别信息，数据集地址为：数据集由四个不同的传感器捕获，包含 10,000 张 RGB-D 图像，其规模与 PASCAL VOC 相似。整个数据集经过密集注释，包括 146,617 个 2D 多边形和 58,657 个具有准确对象方向的 3D 边界框，以及场景的 3D 房间布局和类别。

3D 对象检测是场景理解的一项基本任务。在这项任务中，主要专注于预测现实世界维度中的 3D 边界框，以包含对象的全部范围。测试数据由 2860 张新获取的 RGB-D 图像组成，这些图像的真实边界框不公开。我们使用现有的 SUNRGB-D 数据集作为训练数据。此挑战赛由 CVPR 中的LSUN 挑战赛主办。
http://3dvision.princeton.edu/projects/2015/SUNrgbd/。
https://rgbd.cs.princeton.edu/challenge.html