Generic Polygon Representations(多边形目标检测)

最新推荐文章于 2024-07-05 10:45:32 发布

小白鼠啊

最新推荐文章于 2024-07-05 10:45:32 发布

阅读量1.5k

点赞数

文章标签：目标检测人工智能计算机视觉

本文链接：https://blog.csdn.net/qq_43187232/article/details/127652717

版权

介绍
多边形是任意形状的通用表示，通常甚至用于分段注释。因此，多边形输出可以被视为一个粗略的分割。说明两种标准的多边形预测框，并提出一种新的扩展方式来提升精度。
在这里插入图片描述

Uniform Angular Sampling
均匀角度采样：我们的极坐标表示非常类似于PolarMask和PloyYLO的方法。如图5所示，360°的全角度范围被分为N个相等的部分，其中N是多边形顶点的数量。每个多边形顶点由距对象质心的径向距离r表示。均匀角度采样无需对θ参数进行编码。多边形最终由物体中心（x*,y*）和（ri）表示。
Uniform Perimeter Sampling
均匀周长采样在这个表示中，我们将对象轮廓的周长等分，以创建N个顶点。因此，多边形由一组顶点{(xi，易)}表示，使用对象的质心作为原点。PolyYOLO [11]表明，最好学习顶点{(ri，θi)}的极坐标表示。他们定义了一个参数α来表示一个扇区中顶点的存在与否，如图5(中)所示。我们将这个参数扩展为扇形中顶点的数量。
Curvature-adaptive Perimeter Sampling
曲率自适应周长采样两个顶点之间的对象轮廓中的原始曲线由多边形中的直线近似。对于高曲率区域，这不是一个好的近似。因此，我们提出了基于局部轮廓曲率的自适应采样。我们不均匀地分布顶点，以便最好地表示物体轮廓。图5(右)显示了这种方法的有效性，其中较高曲率区域使用了比直线更多的顶点，而直线可以用较少的顶点来表示。我们采用[28]中的算法来检测给定曲线形状中最能代表物体的控制点。然后，我们使用[5]中的算法减少点集，以获得最具代表性的简化曲线。这样，我们的多边形在曲线部分有密集的点，在直线部分有稀疏的点，这最大化了每个轮廓的预定义点数的利用率。
FisheyeYOLO network
在这里插入图片描述

我们采用YOLOv3 [24]模型来输出第2节中讨论的不同表示。我们称之为FisheyeYOLO，如图6所示。我们的基线边界框模型与YOLOv3 [24]相同，只是Darknet53编码器被ResNet18编码器取代。与YOLOv3类似，对象检测在多个尺度上执行。对于每个比例中的每个网格，将推断出对象宽度(w)、高度(h)、对象中心坐标(x，y)和对象类别。最后，使用非最大抑制来滤除低置信度检测。我们分别使用标准的分类交叉熵和二元熵损失，而不是使用L2损失进行分类和对象分类。最终损失是子损失的组合，如下所示:
在这里插入图片描述
其中高度和宽度被预测为从预先计算的anchor boxes的偏移。

其中，Ltotal是Oriented Box 回归的最小总损耗。在Curved Box的情况下，等式中的Lwh由Lcods(13)代替
我们也探索了学习方向的方法，作为一个分类问题，而不是一个回归问题。
为了进一步改进我们的预测，我们设计了一个IoU损失函数，该函数指导模型最小化预测框和地面真实框的面积差异。我们计算预测矩形和实际矩形的面积，并对这些值应用回归损失。这种损失通过改善整体结果，最大化了预测和实际情况之间的重叠区域。IoU损失是，
在这里插入图片描述
where a represents the area of the representation at hand.
We report all the results related to these experiments in Ta-
ble 3.
极坐标的回归损失：

其中N对应于采样点数，每个点在极坐标中以360/N角度的步长采样，如图5所示。我们的损失类似于PolyYOLO [11]，其中每个多边形点(红色)用三个参数r、θ和α表示。因此，N个采样点所需的总参数为3 × N，如图5(中间)所示。
在笛卡尔表示中，我们回归每个多边形点的两个参数(x，y)。通过增加IoU损失函数，我们进一步改进了我们的预测，使预测值与实际值之间的面积最小化。我们将这两种损失函数称为定位损失LLocalization。笛卡尔多边形预测的综合损失为:
在这里插入图片描述
其中LObj和LClass继承自Y oloV3损失函数。根据现在的表示，我们执行非最大值抑制。我们为所有的表现生成预测；过滤掉低置信度对象-使用过滤掉高IoU对象的输出列表计算输出面的IoU。