DiMP视频目标跟踪算法中hinge-like loss的理解

1. 论文基本信息




2. 为什么要用hinge-like loss

在使用hinge-like loss之前,作者对残差的定义为:

r(s,c)=syc(1) r(s, c)=s-y_{c} \tag {1}

其中,ss表示真实的响应得分,ycy_{c}表示期望的响应得分,通常采用一个高斯分布进行表示,两者之差即为所求解的残差,这是最基础的残差求解思想。

然而在目标跟踪问题中,负样本的数目远大于正样本的数目,其置信得分通常设置为0,这就要求模型足够复杂,并且还会导致模型倾向于对负样本进行学习,而不是对正、负样本进行判别。并且经典残差计算思想并不能解决样本数据不平衡的问题。

However, simply taking the difference forces the model to regress calibrated confidence scores, usually zero, for all negative samples. This requires substantial model capacity, requiring the learning to focus on the negative data samples instead of achieving the best discriminative abilities.

由于SVM对样本不平衡问题不太敏感,因此作者想到用SVM里面的hinge loss来应对上述问题,经典hinge loss的表达式为:

L(y^,y)=max(0,1yy^)(2) L\left ( \hat{y},y \right ) = \textup{max}\left ( 0, 1 - y \cdot \hat{y} \right ) \tag {2}

其中,y^\hat{y}表示估计值,yy表示期望值。在二分类问题下,hinge loss与0-1损失的曲线图对比如下图所示:
在这里插入图片描述
可以发现,hinge loss的特点是:分类器必须有更高的得分,才不会惩罚(Loss = 0),而0-1损失则只要得分大于0就不会惩罚,hinge loss的学习更加严格。




3. 作者如何应用hinge-like loss

在DiMP中,作者并没有完全照搬hinge loss的思想,而是对其进行了修改:

r(s,c)=vc(mcs+(1mc)max(0,s)yc)(3) r(s, c)=v_{c} \cdot\left(m_{c} s+\left(1-m_{c}\right) \max (0, s)-y_{c}\right) \tag {3}

其中,ss表示估计出来的响应得分,ycy_{c}表示期望的响应得分,vcv_c是一个空间权重,mcm_c是目标物体区域的mask,下标cc表示其计算都是以物体中心点为基准的。

在公式(2)中,作者利用mcm_c,通过这种注意力机制将背景区域的得分置为0(体现在(1mc)max(0,s)\left(1-m_{c}\right) \max (0, s)),这样就凸显了hinge loss的优势:模型可以自由地为背景中的简单样本预测较大的负值,而不会增加损失,从而减弱模型训练过程中对负样本的倾向性。

©️2020 CSDN 皮肤主题: 大白 设计师: CSDN官方博客 返回首页
实付0元
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、C币套餐、付费专栏及课程。

余额充值