PASCAL 5i(PASCAL VOC 2012 Aug)数据集构建：小样本语义分割复现踩坑总结

RossoCorsa

已于 2025-02-08 03:53:54 修改

阅读量2.3k

点赞数 26

分类专栏：小样本语义分割文章标签：深度学习人工智能机器学习

于 2024-03-07 13:35:11 首次发布

本文链接：https://blog.csdn.net/RossoCorsa/article/details/136466251

版权

小样本语义分割专栏收录该内容

3 篇文章

订阅专栏

本文介绍了PASCALVOC2012和SBD数据集的组成，以及在处理过程中遇到的问题，如`convert_labels.py`转换时的`numpy.AxisError`和边界标注的忽略。通过解决这些问题，如正确使用`convert_labels.py`并确保边界区域被标记，可以提高模型复现结果的准确性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1. 数据集组成

1.1 训练集：10582/5923张图片怎么来的

3.1 使用convert_labels.py转换出错：numpy.AxisError: axis 2 is out of bounds for array of dimension 0

3.2 转换方法错误导致复现结果不佳：转换过程中标注的边界被忽略

3.2.1 为什么边界区域的转换会影响实验结果？

3.2.2 PASCAL VOC的边界处理

3.2.3 SBD的边界处理

1. 数据集组成

PASCAL 5i (PASCAL VOC 2012 Aug) 增强数据集由PASCAL VOC 2012数据集和SBD组成，两个数据集的图片数如下表所示

数据集	训练集(train)	验证集(val)	测试集(test)
VOC 2012	1464	1449	一般用不上
SBD	8498	2857	0

整个PASCAL 5i增强数据集一共有12031个样本和标注能够使用，从中划分训练集和验证集，具体组成如下：

1.1 训练集：10582/5923张图片怎么来的

pascal-5i增强数据集的训练集（aug_train）在使用中有两个版本，一个版本为10582个样本，另一个版本为5923个样本：

1.1.1 训练集版本一：10582张

10582张样本的训练集的组成如下：

$Aug_{train}=VOC_{train}+SBD_{train}+SBD_{val}$

即由 PASCAL VOC 2012的训练集、SBD的训练集、SBD的验证集组成，并去除其中的重复样本，最终数量为10582个样本。这里可以理解为，验证一般只用原VOC 2012的验证集进行验证，因此可以把SBD的验证集用来训练，增加训练集样本数量。

具体的list见这位大佬的博客：How to use 10,582 trainaug images on DeeplabV3 code? | Starsky's Blog - 11zHexo (sun11.me)list内容在这里：trainaug.txt

1.1.2 训练集版本二：5923张

5923张样本的训练集的组成如下：

$Aug_{train}=VOC_{train}+SBD_{train}$

即由 PASCAL VOC 2012的训练集、SBD的训练集组成，并去除其中的重复样本，最终数量为5923个样本。这个版本直接把SBD的验证集弃用了，不用于训练也不用于验证。

PFENet给出了5923张训练集的list：去重后训练集list

1.2 验证集

pascal-5i增强数据集的验证集（aug_val）共有1449张图片，与PASCAL VOC 2012的验证集（voc_val）一致，直接使用即可

2. 数据集下载

PASCAL VOC 2012数据集可前往官网下载：官网链接

向下找到Development Kit，下载训练/验证集training/validation data

（注意：测试集test需要单独下载，但官方并未公布测试集的groundtruth，也就是只有图片没有标注，一般不用下载）

SBD原来的下载页面现在变成了作者的个人简介，大部分博客使用的都是原来的下载链接。我没找到新的官方链接，只能在其他大佬的博客中，通过云盘分享来下载

有些博客分享了处理完成的数据集，但有些处理方法可能会导致复现结果不佳，具体看下文3.2

3. 数据集处理

这一步是最容易出错的地方

VOC 2012数据集用的是彩色的标注图片，SBD数据集用的是.mat格式的标注，为了统一，需要把两种都转换成灰度图，SBD的官方文件内有两种转换脚本可以使用，具体操作不再赘述，可以参考大佬们的博客PASCAL VOC 2012数据集及其增强版介绍_pascal voc 2012其增强版网盘-CSDN博客 PASCAL VOC2012 & 增强数据集_segmentationclassaug voc2012-CSDN博客，

最终文件夹内应该要有12031张图片和灰度图（10582张train+1449张val，train和val通过对应的list区分），但是需要注意以下两个问题

3.1 使用convert_labels.py转换出错：numpy.AxisError: axis 2 is out of bounds for array of dimension 0

参考博客：http://t.csdnimg.cn/oQxSM

或

参考博客：PASCAL VOC2012 & 增强数据集_segmentationclassaug voc2012-CSDN博客的评论区

convert_labels.py里面img = imread(img_name)改成img = imread(img_name)[:,:,0:3]

3.2 转换方法错误导致复现结果不佳：转换过程中标注的边界被忽略

发现这个问题是源于对小样本语义分割PFENet的复现，复现结果的mIoU始终比论文相差5个点左右，后续对GFS-Seg的CAPL复现仍然有差距，然后在PFENet的github的issue里面发现了原因：https://github.com/dvlab-research/PFENet/issues/6

由于存在不同的对数据集的预处理方法，有的方法在将PNG转换成灰度图过程中，PASCAL VOC的边界区域会被标记为255，以2007_000032.png举例来说，可以看以下对比：

如果你处理完后，图片像中间那样没有把边界区域标成白色，那么复现结果很可能会有一定差距

3.2.1 为什么边界区域的转换会影响实验结果？

我们可以打开CAPL代码的util下的util.py，找到intersectionAndUnion方法：

在计算平均交并比mIoU的过程中，需要计算模型输出output和标注target的交集和并集。由于模型只能分割20个类+背景类，而target中却有边界标注，因此需要另外处理。在计算交集和并集之前，可以发现，代码把output中和target中边界所在位置的值直接修改为了边界标注值。也就是说，不管output怎么划分，和target区别多大，都默认target的边界位置是正确分割的。因此如果数据集在预处理时没有给target标注上边界，那么计算mIoU的时候就少了这部分一定准确的值。

印象中我是使用了SBD的官方转换工具进行转换，得到了中间那种只标注类、不标注边界的灰度图（肉眼能模糊看得见person类），但有些大佬的博客中的结果是下图那种标注了白色边界的灰度图，可能是因为将边界转换成白色并默认其分割正确这种方法是后续某篇论文里才提出的？

Any way，如果你处理完了没有白色边界，可以按以下解决办法重新转换一遍：