faster rcnn:assert (boxes[:, 2] >= boxes[:, 0]).all()分析塈VOC2007 xml坐标定义理解

最新推荐文章于 2023-10-18 20:29:08 发布

10km

最新推荐文章于 2023-10-18 20:29:08 发布

阅读量8.4k

点赞数 7

分类专栏： deeplearning 文章标签： fast-r-cnn assert annotation caffe

本文链接：https://blog.csdn.net/10km/article/details/64641322

版权

deeplearning 专栏收录该内容

26 篇文章 1 订阅

订阅专栏

在进行faster rcnn训练的时候，报了一个断言错误

File “/py-faster-rcnn/tools/…/lib/datasets/imdb.py”, line 108, in append_flipped_images
assert (boxes[:, 2] >= boxes[:, 0]).all()
AssertionError

参照这篇文章，找到了问题的原因，是矩形标注的问题:
《解决faster-rcnn中训练时assert（boxes[:,2]>=boxes[:,0]）.all()的问题》

解决问题的办法

这篇博客中对于问题的发生的原因说得比较明白，但对于决问题提出的办法却未必可取，文中提供了三个方法，对于方法2，3不做讨论，这取决于自己的实际需要。但方法1我认为却是不可取的，以下截图是方法1的说明：

这里写图片描述

意思就是当x2<x1时，直接将x1置为0

附append_flipped_images代码

    def append_flipped_images(self):
        num_images = self.num_images
        widths = self._get_widths()
        for i in xrange(num_images):
            boxes = self.roidb[i]['boxes'].copy()
            oldx1 = boxes[:, 0].copy()
            oldx2 = boxes[:, 2].copy()
            boxes[:, 0] = widths[i] - oldx2 - 1
            boxes[:, 2] = widths[i] - oldx1 - 1
            assert (boxes[:, 2] >= boxes[:, 0]).all()
            entry = {'boxes' : boxes,
                     'gt_overlaps' : self.roidb[i]['gt_overlaps'],
                     'gt_classes' : self.roidb[i]['gt_classes'],
                     'flipped' : True}
            self.roidb.append(entry)
        self._image_index = self._image_index * 2

这个办法很粗暴，相当于修改了标注矩形的尺寸和位置，纯粹是为了消除Asser错误而写的，治标不治本。
就我个人而言，我没有采用文中的任何办法，
我的原则是非万不得已，尽量不修改第三方的代码，因为我的数据集xml文件是我自己用java写的工具生成的，所以我修改了我生成xml文件的代码，标注矩形的坐标按VOC2007的要求写是1-based的就能解决这个问题。
在解决这个问题的过程中也搞清楚了，VOC2007 xml标注格式中矩形坐标的定义方式。

0-based

如上文所说，通过查看py-faster-rcnn/lib/datasets/pascal_voc.py的_load_pascal_annotation函数中，下面这段代码，可以知道VOC2007 的矩形标注坐标是以1为基准的(1-based),而我们在处理图像坐标都是0起始的(0-based)。
所以在这里才要对从xml文件中读取的xmin,ymin,xmax,ymax 统统减1将坐标变为我们做数据处理时所需要的0-based坐标。

# py-faster-rcnn/lib/datasets/pascal_voc.py (line 207)
            # Make pixel indexes 0-based
            x1 = float(bbox.find('xmin').text) - 1
            y1 = float(bbox.find('ymin').text) - 1
            x2 = float(bbox.find('xmax').text) - 1
            y2 = float(bbox.find('ymax').text) - 1
            cls = self._class_to_ind[obj.find('name').text.lower().strip()]
            boxes[ix, :] = [x1, y1, x2, y2]
            gt_classes[ix] = cls
            overlaps[ix, cls] = 1.0
            seg_areas[ix] = (x2 - x1 + 1) * (y2 - y1 + 1)

xmin,ymin,xmax,ymax的含义

对于一个矩形(x,y,w,h)定义，xmin,ymin,xmax,ymax的准确含义是什么呢？，
xmin,ymin一看就明白，我们理解它为矩形的左上角坐标(x,y)，那么xmax,ymax是什么呢？
根据上面的python代码最后一行，就可以推断应该是:

xmax=x+w-1，ymax=y+h-1

所以，这里**(xmax,ymax)代表的是矩形右下角的坐标(属于矩形)**，

如果你的矩形是(x,y,w,h)这样定义的，那么转为VOC2007所要求的(xmin,ymin,xmax,ymax)的base-1的坐标时,应该是(x+1,y+1,x+1+w-1,y+1+h-1)才对，简化后就是(x+1,y+1,x+w,y+h)。

如果你的矩形是(left,top,right,bottom)这样定义的,这里(right,bottom)是矩形右下角的之外的坐标(不属于矩形)，那么转为VOC2007所要求的(xmin,ymin,xmax,ymax)的base-1的坐标时,应该是(left+1,top+1,right+1-1,bottom+1-1)才对,简化后就是(left+1,top+1,right,bottom)。

之前一直被java.swt.RectangularShape中的getMaxX(),getMaxY()方法误导，少减了1：
以下是java.swt.RectangularShape中getMaxX()方法的实现代码

    public double getMaxX() {
        return getX() + getWidth();
    }

因为这个想当然的错误理解，只是少减了个1，在做训练数据集的时候走了一些弯路:当标注矩形的边与图像的边缘重合的时候，也会产生标题中的Assert断言错误。
所以生成xml时，矩形坐标的计算应该如下java代码：

// dom4j生成annotation xml的java代码片段(AnnRect为java.swt.Rectangle的子类)
    /**
	 * 生成矩形描述对象,矩形坐标为1-base
	 * @param rect
	 * @return
	 */
	private Element toElement(AnnRect rect) {
		Element obj = DocumentHelper.createElement("object");
		obj.addElement("name").addText(IadbHandler.iadb.getAnnNames().get(rect.annID));
		obj.addElement("pose").addText("Unspecified");
		obj.addElement("truncated").addText("0");
		obj.addElement("difficult").addText("0");
		// 生成以1为基准的矩形坐标(1-based)
		appendChildNodes(obj.addElement("bndbox"),
				createNode("xmin", rect.x + 1), 
				createNode("ymin", rect.y + 1), 
				createNode("xmax", rect.x + rect.width),
				createNode("ymax", rect.y + rect.height)
		);
		return obj;
	}

对caffe这样的深度学习模型，训练数据的矩形尺寸相差一个像素，有影响吗？
这个很难说，但我知道我的训练数据中有不少矩形是24x24的，对于这么小的矩形，尺寸相差一个像素，就可能损失了4%的信息量。
出于对训练数据质量的要求，我还是要讲究一下。

矩形越界

如果你已经注意到了上面的这个问题，已经将你的标注xml中的坐标统一为1-based坐标了，但在执行训练的时候还是会有上面的Assert错误，那么就要好好检查你的标注数据中，是不是有超出图像范围的矩形。如果有，一定要修正。

训练缓存清空

如果你确定没有越界的矩形却还是会报这个Assert错误，那么有可能是缓冲区中的数据乱了。
把py-faster-rcnn/data/cache中的文件和
py-faster-rcnn/data/VOCdevkit2007/annotations_cache中的文件统统删除（如果有的话），再来试试吧。我就因为这个问题被折腾了一天。