Learning to Track with Object Permanence GRU模块以及损失函数解析

一、centerTrack简介

centerTrack是一种JDE方法,其将前一帧图像、当前帧图像、上一帧的heatmap同时传入网络,网络通过backbone后分别输出不同的head包括:headmap、size、offset、displacement deviation。位移偏差用贪心算法来进行id匹配,其他head则用于目标检测。

二、本文的网络

该网络基于centerTrack而开发出来,使用了多帧图像同时输入,而不同的是,并没有如centerTrack一样将heatmap加入骨干网络之前的输入,而是通过GRU模块将之前的状态与特征图融合,从而做到历史关联。最后网络的输出为headmap、size、offset、displacement deviation加上可见性的评估的值,可见性评估为一个二元分类器。

三、ConvGRU And ConvLSTM

1.ConvLSTM(Long short-term memory) 

LSTM是一种特殊的RNN(循环神经网络)

一个RNN单元如下所示

LSTM是用于解决长序列训练过程中的梯度爆照和梯度消失的问题(如何解决的?)

组成单元如下:

 首先xt和ht-1拼接(向量拼接)后乘以不同的权重 再通过sigmoid得到zi、zf、zo(值域为[0,1]),用做门控状态,z是通过tanh激活函数转换为[-1,1]的值,z是需要用于输入的而非门控,

 

 LSTM的内部使用如下

 zf用于控制ct-1,来忘记上一个结点传过来的不重要的信息,只记住重要信息(忘记阶段)。

zi用于控制xt,对xt进行选择性记忆,xt是用z来进行表示的,相当于zi控制z(选择性记忆阶段)

zo用于控制输出,决定哪些数据将会被当作当前的状态输出(输出阶段)。

yt与RNN相同都是通过ht变化得到的。

而convLSTM将全连接层替换成了卷积层来同时掌握时间和空间的信息

2.ConvGRU(Gated-Recurrent-Unit)

convGRU也是相同的,将全连接层转换为卷积层convGRU中摒弃了记忆单元,并且将输入门和遗忘门结合为一个更新门 z,reset gate相当于输出门

在本文中第一帧图像的特征图被初始化为M0作为门控的输入,(而Ht-1是由什么初始化的呢,文中没有提到)

四、损失函数

N为输入的序列长度,Lp,Loff,Ls的设计与CenterNet设计相同,几个λ为超参数。

Lv为可视性误差,Ld文中没有给出但是猜测应该是置信分误差。

Ld,Ls,Loff都为L1误差(绝对值误差,同YOLO)Lv与Ld都为焦点误差(用于处理分类问题的误差函数)

对物体做检测的同时伴随的需要对其可见度的一个判断,才能结合热图进行检测。

可见物体的匹配是通过offset结合贪心算法进行匹配的,但是不可见物体不是通过预测,而是通过计算位移的方式来进行匹配。

五、数据集合成误差

在数据集标定不可见物体时是有误差的所以通过迭代来减小训练集制作的误差。

 六、相机的R、t外参数

 相机内参数是与相机自身特性相关的参数,比如相机的焦距、像素大小等;

相机外参数是在世界坐标系中的参数,比如相机的位置、旋转方向等。

如何确定相机的外参数是计算不可见位移的关键;

外参数有两个:1.旋转矩阵R2.平移向量t        

需要对世界坐标与像素坐标有个初始映射关系。就是目标位置在世界坐标中是已知的。相机根据在世界坐标中的位置与旋转角度确定这个映射关系。得到了初始的[R,t]此后的相机的运动是可以通过记录相机的平移与旋转来更新[R,t],便可以通过图像反推物体的实际位置,进一步实现预测被检测对象被遮挡时的实际位置,再反传到图像中。

 

  • 3
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值