SiamMOT: Siamese Multi-Object Tracking

解决的问题:快速移动和人的姿势严重变化

工作创新:创造了一个新的运动模型来预测两帧之间的运动距离。

主要工作:1.证明运动模型对跟踪性能的影响(消融实验)2.在三个数据集上进行大量实验,说明运动模型的重要性,并验证本文提出的SiamMOT的高性能。

思路来源:受启发于基于Siamese的单目标跟踪。本文提出两个运动模型,一为隐式运动模型(IMM)一为显示运动模型(EMM)。在最终证明过程中,得出的结论时EMM的性能要比IMM的性能好。##EMM比IMM性能好的原因是:首先,它使用通道无关的相关操作,允许网络显式地学习序列帧中相同实例之间的匹配函数。其次,它支持更细粒度的像素级监督机制,这对于减少错误匹配干扰的情况很重要。##、、、、、、###SORT是最新模型的基础,一个更好的运动模型是提高局部连接的性能的关键。它通过基础的几何特征使用卡尔曼过滤器去建模实体的运动。之后的模型是学习一个深度学习网络基于是觉得和几何的特征去预测实体的位移。##

Siamese trackers in SOT:siam系列是根据运动模型直接在下一帧预测目标的位置,从而生成轨迹。它的匹配函数通常是在大规模的视频和图片数据集进行线下学习。

Deep-MOT:致力于减少结构损失,而不是将检测和跟踪构成一个统一的网络。所以它需要一个现成的线下单目标跟踪器。

本文整体架构:fig.2是本文的创新运动模型

backbone的内容,看链接:

网络骨架:Backbone(神经网络基本组成——BN层、全连接层)_backbone网络_丁天牛的博客-CSDN博客
以下是其文章的内容:
、、、BN层首先对每一个batch的输入特征进行白化操作,即去均值方差过程。

白化操作可以使输入的特征分布具有相同的均值与方差,固定了每一层的输入分布,从而加速网络的收敛。然而,白化操作虽然从一定程度上避免了梯度饱和,但也限制了网络中数据的表达能力,浅层学到的参数信息会被白化操作屏蔽掉,因此BN层在白化操作后又增加了一个线性变换操作,让数据尽可能地回复本身的表达能力,如上面的公式(去均值方差操作)和下面的公式:

大量的参数会导致网络模型应用部署困难,并且其中存在这大量参数冗余,也容易发生过拟合的现象。在很多场景中,我们可以使用全局平均池化层(Global Average Pooling,GAP)来取代全连接层,这种思想最早见于NIN(Network in Network)网络中,总体上,使用GAP有如下点好处:

    利用池化实现了降维,极大地减少了网络的参数量
    将特征提取与分类合二为一,一定程度上的防止过拟合
    由于去除了全连接层,可以实现任意图像尺寸的输入

 、、、、、、

fig.2是显示运动模型,隐式模型本文并未展开,只是给出它的计算过程:

ROIAlign看:理解RoIAlign实际操作_我有一個夢想的博客-CSDN博客

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值