Ocean学习笔记
1.拟解决的问题
基于锚点的Siamese跟踪器在精度方面取得了显著的进步,但其跟踪鲁棒性滞后限制了进一步的提高,其根本原因是回归网络只训练了在正锚点盒上(即IOU>0.6),这种机制使得与目标物体重叠较小的锚点难以细化
2.贡献
a.基于锚点的方法难以精确提取与目标对象重叠较小的锚点,我们提出了一种无锚点对象网络,该算法不仅可以校正不精确的边界框预测,还可以学习对象感知特征来提高匹配精度
b.将所提出的无锚网络与高效的特征组合模块相结合,设计了一种新的跟踪框架。所提出的跟踪模型在5个基准上实现了最先进的性能,同时以实时速度运行
3.解决方法
3.1 如何修正弱检测?
无锚回归允许训练ground-truth box中的所有像素,即使只有一小块区域被预测为前景,它也可以预测目标物体的规模。
3.2 特征对齐
利用新的采样位置,通过特征对齐模块提取目标感知特征,其表达式为
空间变换
∆
t
∈
T
∆t∈T
∆t∈T从原始规则采样点到与预测边界盒对齐的新点的距离向量,变换定义如下:
其中
(
m
x
,
m
y
)
和
(
d
x
,
d
y
)
(m_x,m_y)和(d_x,d_y)
(mx,my)和(dx,dy)分别指的是预测的边界框的中心点位置和分类置信度图的像素点位置
通常情况下,视觉特征和候选边界框的对齐考虑的是分类得分高的候选边界框,然而当高分区域代表的是背景的时候,那么对应的特征将会误导目标对象的跟踪,而本文提出的是通过一个独立于分类结果的方法,直接从预测的边界框中采样视觉特征,而不考虑分类分数。
3.3 损失函数
回归损失:
分类损失:
a.规则区域分类损失
b.对象感知分类损失
其中
p
0
∗
和
p
r
∗
p_0^*和p_r^*
p0∗和pr∗分别指的是两个分类的标签,前者是一个概率标签即计算真实框和预测框的IOU得到,而后者是一个二值标签,通过以下公式求得:
总损失如下:
3.4 网络结构
a.特征提取
b.特征融合
从上图可以看出,该网络在单一尺度上经过了了三个空洞卷积,然后通过逐点求和的方式融合相关特征
特征融合的公式表示为:
其中下表ab分别表示的是沿x轴和y轴的扩张率
c.目标定位
该分类得分图通过目标感知的得分图和规则区域的得分图加权得到,具体的公式如下:
通过对尺度变化施加惩罚来抑制物体大小和宽高比的大变化,如下所示
其中
r
和
r
′
r和r^{'}
r和r′分别指的是上一帧和当前帧预测包围盒的长宽比,s和
s
′
s^{'}
s′分别指的是上一帧和当前帧的包围盒尺度
因此最终的分类得分图为:
为了保持预测的边界框的形状平滑变化,使用线性权函数来计算最终的尺度
d.在线更新分支
引入了一个在线分支来捕获跟踪过程中目标物体的外观变化,在线分支继承了骨干网前三个阶段的结构和参数,只是将第四个阶段的步长改为了1,该阶段的初始参数都是通过训练得到的,最终将在线分支的结果与上面得到的分类得分图相加得到最终的分类得分图