目标检测：回归参数介绍及应用

视觉萌新、

已于 2023-06-26 17:29:41 修改

阅读量566

点赞数

分类专栏：目标检测文章标签：目标检测人工智能回归参数计算机视觉

于 2023-06-26 15:54:44 首次发布

本文链接：https://blog.csdn.net/qq_50001789/article/details/131399224

版权

目标检测专栏收录该内容

10 篇文章 0 订阅

订阅专栏

目标检测：回归参数介绍及应用

简介
回归策略
- 原始策略
- YOLOv2做的改进

简介

虽然通过设定锚点，可以让特征图上的像素点代表形状不一的矩形区域，但实际需要检测的区域宽高比例具有未知性，我们不可能预设出所有可能出现的比例，因此并不能单单依靠锚点来完成对区域的检测。这时就引入了回归参数这一概念，回归参数相当于是锚点与物体边界框（以下简称边界框）之间的**“桥梁”，我们可以找出与边界框最相似锚点，之后利用回归参数，将锚点所代表的区域微调成边界框所代表的区域，因此回归参数往往有四个值，分别对应定位锚点矩形区域的四个值，可以是矩形框的宽、高、中心点坐标的 $x$ 和 $y$ ，也可以是矩形框左上角的 $x$ 和 $y$ 以及右下角的 $x$ 和 $y$ ，因此网络并不是直接预测出对象的具体位置，而是预测出回归参数**，再与对应的锚点坐标相结合，得到对象的位置。注意：即使对于图像中的同一物体，由于各个锚点位于原图的不同位置，因此每个锚点的回归参数均不同。

在这里插入图片描述

网络通过预测回归参数来间接预测边界框坐标还有一个好处就是可以稳定网络的输出。边界框坐标值的范围会很大（和图像大小有关），直接预测坐标数据的话，网络输出的浮动较大，从而导致网络稳定性较差，而回归参数的浮动较小，只起到微调锚点的作用，因此网络的输出不会过小或者过大，保持在一个稳定的范围内，避免在反向传播过程中造成梯度失控的问题，在处理图像时我们也常常将图像传入网络之前对图像数据做标准化或者归一化，两者可以结合着理解。

回归策略

原始策略

在算法Faster R-CNN、RetinaNet中使用的回归策略，假设 $x_a,y_a,w_a,h_a$ 为锚点绝对坐标， $x, y, w, h$ 为物体边界框坐标， $t_x,t_y,t_w,t_h$ 为各个坐标数据的回归参数：

边界框编码：边界框坐标->回归参数

$t_x=\frac{x-x_a}{w_a},t_y=\frac{y-y_a}{h_a},t_w=\log{\frac{w}{w_a}},t_h=\log{\frac{h}{h_a}}$

回归参数解码：回归参数->边界框坐标

$x=w_a*t_x+x_a,y=t_y*h_a+y_a,w=w_a*e^{t_w},h=h_a*e^{t_h}$

YOLOv2做的改进

作者在论文YOLOv2中指出原始的边界框回归策略由于没有限制偏移量的取值范围，容易导致中心点 $x, y$ 可能会预测在图像的任何一点上，相对于当前预测点会产生较大的偏移，进一步导致训练时的不稳定。对此，作者做了改进，将每个预测特征点视为一个网格，将锚点中心的偏移量改为网格左上角坐标的偏移量，即网格左上角视为锚点框的中心，具体计算公式可以表示为：

回归参数解码

$x=\sigma(t_x)+c_x,y=\sigma(t_y)+c_y,w=p_w*e^{t_w},h=p_h*e^{t_h}$

其中 $c_x,c_y$ 表示网格左上角的坐标， $p_w,p_h$ 表示锚点的宽高， $\sigma(\cdot)$ 表示 $\text{Sigmoid}$ 归一化函数，可以将偏移量限制在 $(0, 1)$ 范围内，改进之后预测框的中心点被限制在锚点中心点所在的网格单元内，有利于模型的收敛。由于YOLO系列的算法并没有直接利用回归参数做损失，而是利用边界框重合度计算损失，因此不需要将边界框做编码操作。（具体可见《YOLOv3-SPP》）

注：以上仅是笔者个人见解，若有问题，欢迎指正。

视觉萌新、

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
目标检测：回归参数介绍及应用

虽然通过设定锚点，可以让特征图上的像素点代表形状不一的矩形区域，但实际需要检测的区域宽高比例具有未知性，我们不可能预设出所有可能出现的比例，因此并不能单单依靠锚点来完成对区域的检测。这时就引入了回归参数这一概念，回归参数相当于是锚点与物体边界框（以下简称边界框）之间的**“桥梁”，我们可以找出与边界框最相似锚点，之后利用回归参数，将锚点所代表的区域微调成边界框所代表的区域，因此回归参数往往有四个值，分别对应定位锚点矩形区域的四个值，可以是矩形框的宽、高、中心点坐标的xxx和yyy。
复制链接

扫一扫