【目标跟踪】|PrDiMP Probabilistic Regression for Visual Tracking

这篇论文是Martin Danelljan CVPR2020的最新一个工作,这个系列中几篇论文都是一种架构,即将整个跟踪任务分为位置预测和bbox回归两个问题,模型架构采用的是一种类似Siamese架构。这篇论文主要解决的是位置回归的问题,bbox的回归还是直接使用的跟atom\dimp中一样的Iou-net的head。

将目标跟踪视为每一帧的目标回归问题:
1、使用DCF或Siamese等进行粗略定位,其对于目标背景、杂波和遮挡具有一定鲁棒性【Target Center Regression】;

2、使用单独的网络分支,用于回归目标框【Bounding Box Regression】。

在atom中位置预测被定义为一个二分类问题,模型学习区分目标和背景两个类别,从而定位目标的位置。
在Dimp中,作者引入元学习,将第一帧的信息融入到后面帧中,即使用第一帧的信息来为后面帧的在线更新模型提供权重,这里在线更新模型是指位置预测和边界框预测的两个Head部分。
在这篇论文中,作者都归为回归问题,这里使用一个条件概率模型来通过前面帧的信息,预测下一帧的位置。

问题

GT框的中心位置发生严重偏移,故而目标中心回归是一项艰巨任务。

对GT边界框未进行准确标注,而在训练网络时,标注的这种分歧变化会被忽略。多个注释者对给定对象的注释有所差异,尤其出现运动模糊、遮挡、小目标等情况下尤为明显,所以准确的bbox标签也是一项艰巨任务。

在目标估计中表示不确定性是至关重要的。尽管目前的突出范例依赖于评估一个依赖于状态的信心分数,这个值缺乏一个明确的概率解释,使它的使用复杂化。

在这里插入图片描述

本文方法

估计目标状态的不确定性很重要。与当前最先进的方法不同,我们的方法根据输入图像x预测目标状态y的概率分布p(y | x),提供了输出的清晰解释。

我们假设没有特定的分布族,比如高斯分布,而是让p(y|x)直接由网络结构本身参数化。具体地说,密度p(y|x)由SoftMax操作的连续的泛化来表示,SoftMax操作以前在基于能量的模型[27]中使用,最近在[18]中使用。与之前的工作不同,我们还对注释本身的不确定性进行建模,伪标签函数a被标签条件分布 p ( y ∣ y i )代替。这在视觉跟踪中非常重要,它模拟了注释 y i 中的噪声和不确定性。可以消除注释中的噪音和回归任务本身的歧义。

通过最小化预测密度和标签分布之间的Kullback-Leibler散度来训练网络。
在这里插入图片描述
目标中心回归是一项不明确的任务,其中不清楚如何定义“正确”的值yi。我们的公式通过“正确”值的分布p(y | yi)对回归任务中的这种模糊性和不确定性进行建模。
在这里插入图片描述
在这里插入图片描述
ref
https://blog.csdn.net/weixin_39467358/article/details/106361044

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值