PaperReading:Multi-Object Tracking with Quadruplet Convolutional Neural Networks

在这里插入图片描述
论文链接:Multi-Object Tracking with Quadruplet Convolutional Neural Networks

1. 动机

作者提出一种能通过使用quadruplet损失学习关联不同帧之间检测到的目标。该网络同时考虑目标外观和对应时序上的邻近帧用来进行数据关联。不同于常规的排序损失,quadruplet损失受到额外约束的作用使得时间上邻近的检测结果比大时间间隔在位置上更紧密。同时本文采用多任务损失策略来联合学习目标关联和边界框回归来更好地进行定位。整个网络的训练时端到端的。在跟踪策略上,目标之间的关联通过使用来自推荐网络的标准学习的最小最大标签传播方法实现。

2.技术细节

在这里插入图片描述

2.1多目标跟踪的Quad-CNN网络

本文设计的Quad-CNN网络在Siamese和triplet网络的基础上进行展开。多目标跟踪的数据关联工作不仅应考虑检测目标的类别标签还需要关注它们被检测到时对应的时间戳,为此提出Quad-CNN来学习带有该约束的embedding(检测到目标之间的相似度同时由它们的标签和时间距离决定)。下图定义了本文中谈及的quadruplet关系。
在这里插入图片描述
由于quadruplet的关联依赖于目标定位的精度,作者使用边界框回归作为额外的目标来学习网络。Quad-CNN的优化目标是最小化多目标任务的损失:
在这里插入图片描述

2.1.1鲁棒关联的quadruplet排序损失

在给定quadruplet,上图中四张子图的关系定义如下:
在这里插入图片描述
在这里插入图片描述在这里插入图片描述
外观特征
在训练样本数不充分的情况下,由于过拟合问题的存在,学习一个鲁棒的特征(联合上部分和下部分的embedding)十分困难。为解决该问题,作者对最后一个卷积层的输出(pool5)切片成两部分,并且学习两个相互独立的全连接层( f t o p 和 f b o t t o m f_{top}和f_{bottom} ftopfbottom)。进行切片能有效减少总的网络参数。实验验证,切片策略有效阻止网络过拟合情况同时提高目标跟踪的精度。最后对切片输出进行串联生成唯一的外观特征。
特定序列的运动感知特征
输入向量:
在这里插入图片描述
利用embedding网络 f p o s f_{pos} fpos提取从 x i 到 x j x_{i}到x_{j} xixj的运动感知位置特征:
在这里插入图片描述
其中 p ˉ i → j \bar{p}_{i \to j} pˉij是利用边界框回归对 p i → j p_{i\to j} pij的 转换。
利用 s k s_{k} sk表示序列k的统计, s ^ k \hat {s}_{k} s^k表示特定序列的embedding特征, m i → j m_{i\to j} mij表示特定序列的运动感知位置embedding,相应表达式如下:
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
特征权重
因为输入特征—外观特征和位置特征在大小和空间上是截然不同,无法直接对二者的相关关系进行度量,这里使用特征权重网络 f w t f_{wt} fwt提取权重向量。
在这里插入图片描述

边界框回归损失

为消除检测目标的定位信息中的噪声干扰,作者引入边界框回归损失 L b b r e g L_{bbreg} Lbbreg
在这里插入图片描述

2.2基于MOT的最小最大标签传播

多目标跟踪问题使用图的形式进行解决,优化方法(k-最短路径法和网络流法)是常用的寻找目标最优轨迹的典型方法。
在这里插入图片描述
在这里插入图片描述

2.3实现

训练检测结果

  • 因为检测到的目标的特性和真值是不同的,只有检测道德边界框具备推断价值,所以作者使用检测到的边界框进行训练。
  • 训练检测结果无法直接进行(检测结果未和真值的IDs关联),为此本文使用匈牙利算法对检测结果和真值标签进行关联。
  • 需要注意:一些检测边界框没有对应IDs,这是由于误分配真值和误检测。
    在这里插入图片描述
    Quadruplet采样
  • 有利于训练误差的反向传播
  • 有利于训练模型的快速收敛
    首先在一个mini-batch中挑选来自不同帧的一个anchor实例和两个正例,然后挑选一个与anchor有不同ID的负例。值得注意的是,挑选负例有两种方法:1随机挑选;2.利用硬约束进行挖掘;
    数据增强
  • CNNs的输入尺寸被resize为 256 × 256 256\times256 256×256,然后在上面进行大小为 227 × 227 227\times227 227×227的随机crop。
  • 所有序列进行水平翻转,翻转后的结果作为独立不相关的序列用于训练
  • 使用小范围颜色抖动来消除过拟合并提升网络的泛化性能

3.实验结果

在这里插入图片描述
在这里插入图片描述

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值