Paper reading:Multiple People Tracking by Lifted Multicut and Person Re-identification

在这里插入图片描述
论文地址:http://openaccess.thecvf.com/content_cvpr_2017/papers/Tang_Multiple_People_Tracking_CVPR_2017_paper.pdf

摘要

通过行人重识别策略我们能重新找到他的位置即使在局部位置失去跟踪目标。在长距离跟踪上,相似度高的行人有可能不是同一目标。本文提出一种新颖的基于图的构想:通过求解最小代价的提升multicut问题来对行人进行连接和聚类。对图中结点进行长距离的连接,不需要对原始的可行解进行修改。为了在更长时间跨度上进行高效的匹配,我们提出一种新的行人重识别结构。它将从深度网络中提出出来的整体表示和从最先进的姿态估计模型中抽取的身体姿态结合起来,在MOT16数据集上取得先进的效果。

介绍

将多行人跟踪问题看作最小代价提升multicut问题的创新之处:

  1. 设计和训练行人重识别的深度网络通过融合的人体姿态信息。这提供一种关联存在短暂距离的目标行人并且能进行遮挡前后的匹配。
  2. 在跟踪图模型中引入规则边和提升边,规则边定义图中短距离的可行解,提升边对跟踪目标增加额外的长距离信息在不改变规则边确定的可行解的情况下,来判断某一节点该进行联合还是去除。

在这里插入图片描述

模型

本文所提出的最小代价提升的多分割问题(LMP)是在最小代价多分割问题(MP)的基础上进行改进的。

在这里插入图片描述在上图(a)、(b)中,只有 v 2 v_2 v2 v 3 v_3 v3是同一个问题,关于长时间间隔的 v 1 v_1 v1 v 4 v_4 v4是否应该连接,MP会因二者相似度高而误判两者为同一目标,LMP能有效考虑到该边不被局部边支持,判定两者不是同一目标而舍弃这条边。

在上图 © 、(d)中, v 1 、 v 2 、 v 3 、 v 4 v_1、v_2、v_3、v_4 v1v2v3v4都是同一个目标,由于局部遮挡和不正确的边界框的定位,局部边 v 1 v 2 v_1v_2 v1v2 v 3 v 4 v_3v_4 v3v4会接近零乃至为负数。这里 v 1 v 4 v_1v_4 v1v4正确进行了行人重识别,MP方法却误将四个点分成两类,相比之下,LMP允许我们通过单一的远程置信度来影响假设目标之间的整个连接链,对因遮挡而消失的轨迹进行补全。

参数


a)有限集V表示在一幅图像中的一个目标检测,即跟踪框。对于每个目标检测v∈V,它的高度是h_v,中心位置是(x_v,y_v),帧数是t_v。

b)对于每对v,w∈V,条件概率p_vw∈(0,1)表示v,w分属于不同目标的概率。

c)在图G=(V,E)中,每个边都是regular边,表示在相同帧中连接v,w,或者在不同帧但是帧数相近中连接v,w,并且这个差距存在上界δ_t≥|t_v-t_w |。

d)在图G’=(V,E’)中,E⊆E’,lifted边{v,w}∈E’\E,表示在不同帧中连接相似的v,w,并且满足|t_v-t_w |≥δ_t和p_vw≤p_0,其中p_0∈(0,0.5)

可行解集


在这里插入图片描述
约束一表示,对于任意邻居结点v和w,如果在G中存在一条路径,这个路径的所有边都标记为0,那么vw的边也只能标记为0。

约束二和三表示,当且仅当v和w再一个更小的图中相连,并且路径的边都标记为0,对于所有的可行解和所有的lifted边vw∈E’\E,x_vw都标记为0。(意味着v和w属于同一个目标)

通过给lifted边vw∈E’\E分配cost c_vw ,我们可以不用将v和w直接相连再求概率,而是可以给可行解中分属于不同目标的v,w分配cost

目标函数


LMP的目标函数:
在这里插入图片描述
其中, θ γ \theta_\gamma θγ在在训练集上通过逻辑回归求得, γ \gamma γ是成对检测目标之间的距离长度, f ( e ) f^{(e)} f(e)描述了检测目标之间的相似度。

优化


最小代价提升的multicut问题是APX-hard问题。

跟踪过程中的行人重识别

在多行人跟踪的上下文中,关联整个视频中检测到的行人可看做有特别挑战的重识别问题:遮挡、背景混杂、图像分辨率差异大和不准确的边界框定位。本文选择的基础CNN结构是VGG-16 Net,并提出一种新颖的行人重识别模型,该模型组合了通过最先进的姿态估计方法获得的人体姿态。

神经网络的体系结构


在选用哪种网络体系上,本文对ID-Net,SiameseNet,StackNet这三种网络结构的使用精度进行比较,具体结构构造见下图:

image-20190330101507790
ID-Net的训练集输入为 112 × 224 × 3 112\times224\times3 112×224×3,对应卷积核为 3 × 3 × 3 3\times3\times3 3×3×3。(a)SiameseNet在前者基础上使用了两个对称的CNNs,来更好地提取特征,其输入为成对的图片在各自通道输入;(b)StackNet在输入环节将成对图片一起输入,其输入尺寸为 112 × 224 × 6 112\times224\times6 112×224×6,对应卷积核为 3 × 3 × 6 3\times3\times6 3×3×6;©是StackNetPose的体系结构效果图,在原有StackNet输入尺寸 112 × 224 × 6 112\times224\times6 112×224×6的基础上增加了 112 × 224 × 14 112\times224\times14 112×224×14的人体姿态输入,将两部分输入进行组合后的StackNetPose的输入尺寸变成​ 112 × 224 × 20 112\times224\times20 112×224×20,对应卷积核变为 3 × 3 × 20 3\times3\times20 3×3×20。以上网络的后续结构都与VGG-16Net一致。

(d)是StackNetPose的运行实例效果图,(e)展示了使用不同模型进行行人重识别的对应精度。

潜在配对目标

目标函数中在采用逻辑回归模型的条件下,代价计算表达式为
c e = − &lt; θ γ , f ( e ) &gt; c_e=-&lt;\theta_\gamma,f^{(e)}&gt; ce=<θγ,f(e)>
表达式中特征 f ( e ) f^{(e)} f(e)的计算可从三方面进行:时空关系(ST)、稠密相关性匹配(DM)、行人重识别置信度(Re-ID)。

ST.
f s t = ( x v − x w ) 2 + ( y v − y w ) 2 h ˉ f_{st}=\frac{\sqrt{(x_v-x_w)^2+(y_v-y_w)^2}}{\bar{h}} fst=hˉ(xvxw)2+(yvyw)2
其中, h ˉ = h v + h w 2 \bar{h}=\frac{h_v+h_w}{2} hˉ=2hv+hw

ST特征能够提供有效的信息在一个短间隔的窗口内,它建模了边界框之间的几何关系,但未曾考虑图片的内容。

DM.DM特征在局部图像块上进行匹配,这也使得其在短的时间间隔内对不规律的相机移动和局部遮挡鲁棒。本方法定义一系列匹配的关键点M, M U = ∣ M v ∪ M w ∣ MU=|M_v\cup M_w| MU=MvMw M I = ∣ M v ∩ M w ∣ MI=|M_v \cap M_w| MI=MvMw,两次检测的成对特征定义为 f d m = M I / M U f_{dm}=MI/MU fdm=MI/MU

Re-ID.该特征是为行人重识别进行训练的,对大的时空间隔都表现出极好的鲁棒性同时允许进行长距离关联。该方法的成对特征定义为:
f ( e ) = ( f s t , f d m , f r e I D , ξ m i n , f s t 2 , f s t ⋅ f d m , . . . , ξ m i n 2 ) f^{(e)}=(f_{st},f_{dm},f_{reID},\xi_{min},f_{st}^2,f_{st}\cdot f_{dm},...,\xi_{min}^2) f(e)=(fst,fdm,freID,ξmin,fst2,fstfdm,...,ξmin2)
ξ m i n \xi_{min} ξmin是成对最低检测置信度, f r e I D f_{reID} freID是StackNetPose估计的可能性,平方项介绍了从特征空间到代价空间的非线性映射,整个特征的维度是14维。

实验分析

特征选择

在这里插入图片描述
ST和DM特征在两个MOT16数据集上都在短时间间隔内精度较高,时间间隔一长精度急速下降,ReID特征在大于50帧间隔的情况下精度仍极为可靠。将三种特征进行组合可以得到最高精度的效果,原因是在不同的时间间隔,组合特征方法可以充分发挥不同信息源的优点。

在ReID特征满足精度需求的情况下,添加ST和DM特征来提升整体的精度的目的在于将二者看作正则项,禁止身体部位间的无关项之间的联系。

MP和LMP比较

在这里插入图片描述
δ m a x \delta_{max} δmax是规则边和提升边的划分边界,小于 δ m a x \delta_{max} δmax的边为规则边,大于 δ m a x \delta_{max} δmax的为提升边。 δ t \delta_{t} δt是时间间隔值。

在MOT16基准上的跟踪结果

在这里插入图片描述

上表展示了本文提出的LMP方法与其他方法在各种性能指标上的对比。

结论

本文通过姿势辅助深度神经网络对这种远程信息进行建模。 考虑到相似的人属于不同目标,提出一种最小代价提升multicut目标函数,其中远程行人重识别信息的编码方式通过局部边缘强制有效路径进行。 该跟踪方法优于以前在具有挑战性的MOT16基准测试中的工作。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值