图像语义分割实验数据集


数据集划分

数据集 { 训练集 { 训练集 ( T r a i n i n g S e t ) : 用于训练模型 验证集 ( V a l i d a t i o n S e t ) : 用于调整和选择模型 测试集 ( T e s t S e t ) : 用于评估最终的模型 数据集\left\{ {\begin{matrix} {训练集\left\{ {\begin{matrix} 训练集(Training Set):用于训练模型\\ \\验证集(Validation Set):用于调整和选择模型 \end{matrix}} \right.}\\ \\测试集(Test Set):用于评估最终的模型\end{matrix}} \right.\\ 数据集 训练集 训练集(TrainingSet):用于训练模型验证集(ValidationSet):用于调整和选择模型测试集(TestSet):用于评估最终的模型


常用的图像语义分割公共数据集及其基本信息

数据集发布年份应用场景类别数数据量分辨率训练集验证集测试集
1PASCAL VOC2012多种应用219993不固定146414491452
2PASCALCONTEXT2014多种应用540N/A不固定499851059637
3PASCALPART2014人体解剖21N/A不固定10103101039637
4MS COCO2014多种应用81328000不固定827834050481434
5ILSVRC2015多种应用2w+1400w+不固定N/AN/AN/A
6KITTI2013城市街道场景解析10N/A1226*307140N/A112
7Cityscapes2016城市街道场景解析30≈2w2048*102422973500N/A
8Sift Flow201133
9SBD2009户外场景解析8N/A320*210715N/AN/A
10NYUD v22012室内场景解析4040w+480*640795654N/A
11SUNRGBD2015室内场景解析37≈1w不固定266626195050
12LIP

注:≈表示左右,w+表示万多/多万,N/A表示无法确定


常用公共数据集

(1)PASCAL Visual Object Classes(PASCAL VOC)数据集

该数据集来源于一个由欧盟资助组织的国际计算机视觉挑战赛,该赛事从2005年开始,到2012年为止,每年都会更新发布不同的带标签的图像,竞赛的项目包括分类、检测、分割、人体布局以及动作识别等,数据集涵盖的物体共包括4大类21小类(包含背景类),其中4大类分别为vehicle、household、animal和person。官网地址为:http://host.robots.ox.ac.uk/pascal/VOC/index.html
http://host.robots.ox.ac.uk/pascal/VOC/voc2012/#devkit
在这里插入图片描述

(2)PASCAL-CONTEXT数据集

该数据集由PASCAL VOC 2010语义分割数据集和Context标注两个部分组成,总共有540个类别,10103张图像,其中,4998张用于训练集,5105张用于验证集,目前最广泛使用的是出现频率最高的前59个类别作为语义标签,其余类 别 标 记 为 背 景 , 即 background 。 官 方 下 载 地 址 为 :https://cs.stanford.edu/~roozbeh/pascal-context/

(3)PASCAL-PART数据集

该数据集是PASCAL VOC 2010的一组附加注释。它超越了原始PASCAL 对象检测任务,为人体每个身体部位提供了分割掩码。同时对没有一致部件集的类别提供轮廓注释。每张图像中目标物体的不同部位都有精确标注,下载地址为:http://roozbehm.info/pascal-parts/pascal-parts.html

(4)Microsoft Common Objects in Context(MS COCO)数据集

该数据集是目前计算机视觉领域最大的语义分割数据集,共包含80种物体和一个背景类,328,000张图片,2,500,000个物体实例标注和100,000个人体关键部位标注。官方地址为:http://cocodataset.org/#home

(5)ImageNet Large Scale Visual Recognition Challenge(ILSVRC)数据集

该数据集来自于国际计算机视觉挑战赛,竞赛从2010年开始举办,到2017年截止共7届,比赛项目涉及图像分类、目标定位、(视频)目标检测及场景分类与解析等内容。目前,ImageNet数据集共有14,197,122幅图片,被划分为21,841个类别,其中,有明确的类别和位置标注的图片已超过百万,已广泛应用于图像分割领域 ,官方下载地址为 : http://www.image-net.org/challenges/LSVRC/

(6)Karlsruhe Institute of Technology and Toyota Technological Institute(KITTI)数据集

该数据集由德国卡尔斯鲁厄理工学院和丰田美国技术研究院联合创办,是目前国际上最大的自动驾驶场景下的计算机视觉算法评测数据集,主要用于评测立体图像、光流、视觉测距、3D物体检测和跟踪等计算机视觉技术在车载环境下的性能。数据集包含市区、乡村和高速公路等场景采集的真实图像数据,每张图片最多可达15辆车和30个行人,还包含各种各种程度的遮挡和截断。官方下载地址为:http://www.cvlibs.net/datasets/kitti/raw_data.php
下载kitti数据集
1、下载rgb:(tar.gz文件大小:72G)

cd PATH_TO_DOWNLOAD
wget http://datasets.lids.mit.edu/kitti/rgb.tar.gz
tar -xvf rgb.tar.gz

2、下载depth:(tar.gz文件大小:20G)

cd PATH_TO_DOWNLOAD
wget http://datasets.lids.mit.edu/kitti/depth.tar.gz
tar -xvf depth.tar.gz

(7)Cityscapes Dataset(Cityscapes)数据集

该数据集由奔驰公司推动发布,是目前机器视觉领域内公认的最具权威性和专业性的图像分割数据集之一,用于城市场景理解,共包含5000张高质量精细注释图像和20000张粗略注释图像。这些精细注释的图像被分成2975500张,用于训练、验证和测试的1525幅图像。官网地址为:https://www.cityscapes-dataset.com/。 或百度云、提取码:aChQ
c i t y s c a p e s { g t F i n e { t e s t t r a i n v a l l e f t I m g 8 b i t { t e s t t r a i n v a l cityscapes\left\{ \begin{matrix} gtFine\left\{ \begin{matrix} test \\ train \\ val \end{matrix} \right. \\ leftImg8bit\left\{ \begin{matrix} test \\ train \\ val \end{matrix} \right. \end{matrix} \right. cityscapes gtFine testtrainvalleftImg8bit testtrainval
在这里插入图片描述

(8)Sift Flow数据集

该数据集主要由街道、山脉、城市、海滩和建筑等8种户外场景组成,适用于图像语义分割研究,共有2688张图片,33种语义类物体和3种地理标签。官网地址为:http://people.csail.mit.edu/celiu/SIFTflow/

(9)Stanford background dataset(SBD)数据集

该数据集由斯坦福大学创建,适用于评测语义级场景解析算法的性能。共有715张图片,分别是从LabelMe、MSRC、P ASCAL VOC和Geometric Context等现有公共数据集中选择组成的室外场景图,像素大约为320*240,至少包含1个前景对象 ,并且在图像中具有地平线位置 ,官网地址为 :http://dags.stanford.edu/projects/scenedataset.html

(10)NYU Depth Dataset V2(NYUDv2)数据集

该数据集由纽约大学创建,提供了各种室内场景数据,主要由微软Kinect数据库的RGB和Depth摄像机记录的一系列表示各种室内场景的视频序列组成,总共包含由1449张标注的RGB图片和深度图像,来自3个城市的464个新场景,407024个新的未标记帧,每个对象都标有一个类和一个实例号(cup1、cup2、cup3等),官方地址为:https://cs.nyu.edu/~silberman/datasets/nyu_depth_v2.html

下载nyuv2数据集
(tar.gz文件大小:32G。解压后33G)

cd PATH_TO_DOWNLOAD
wget http://datasets.lids.mit.edu/sparse-to-dense/data/nyudepthv2.tar.gz
tar -xvf nyudepthv2.tar.gz

(11)SUN-RGBD数据集

该数据集主要适用于室内场景理解,由4个不同的传感器捕获而成,共包含10,000张RGB-D图像,其中,146,617个2D多边形标注、58,657个带精准对象方向的3D边界框标注以及一个3D空间布局和场景类别信息,数据集地址为:数据集由四个不同的传感器捕获,包含 10,000 张 RGB-D 图像,其规模与 PASCAL VOC 相似。整个数据集经过密集注释,包括 146,617 个 2D 多边形和 58,657 个具有准确对象方向的 3D 边界框,以及场景的 3D 房间布局和类别。

3D 对象检测是场景理解的一项基本任务。在这项任务中,主要专注于预测现实世界维度中的 3D 边界框,以包含对象的全部范围。测试数据由 2860 张新获取的 RGB-D 图像组成,这些图像的真实边界框不公开。我们使用现有的 SUNRGB-D 数据集作为训练数据。此挑战赛由 CVPR 中 的LSUN 挑战赛主办。
http://3dvision.princeton.edu/projects/2015/SUNrgbd/
https://rgbd.cs.princeton.edu/challenge.html


同时可参考https://blog.csdn.net/Keep_Trying_Go/article/details/125938575

  • 0
    点赞
  • 12
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值