UGM matlab代码,一种基于深度学习和条件随机场的多目标跟踪方法与流程

最新推荐文章于 2021-08-09 15:23:57 发布

weixin_39611722

最新推荐文章于 2021-08-09 15:23:57 发布

阅读量237

点赞数

文章标签： UGM matlab代码

本发明涉及多目标跟踪领域，特别涉及一种基于深度学习和条件随机场的多目标跟踪方法。

背景技术：

尽管多目标跟踪技术有了较大发展，但是仍然由于存在跟踪准确率低、速度慢等问题而难以应用到实际。多目标跟踪，为了将检测结果进行准确的匹配，往往需要提取判别能力较强的特征，如SIFT，HOG等，而传统方法不仅耗时而且其判别能力也因特征本身的设计受到限制。近年来，深度学习在计算机视觉领域取得了辉煌的成绩，尤其是卷积神经网络，其特点是数据驱动，网络生成特征而非人工设计，由于其强大的特征描述能力，得到了广泛的应用。因此，将深度学习应用到多目标跟踪领域势在必行。

目前，多目标跟踪方法主要是基于检测的跟踪，即先利用检测算法将图像中的目标检测出来，然后对每帧图像中检测出的目标进行匹配连接，而多目标跟踪算法研究的重点在于匹配连接模型。

现有的方法也主要分为两类，一类是注重提取有判别力的特征，另一类则力求建立更稳健的匹配关联模型：

(1)提高特征表达能力的方法主要是根据多目标跟踪的问题特点而设计更符合该问题的特征，这类算法往往将多目标跟踪中的运动特点以及目标之间的相关关系加入到特征设计中，但往往会因遮挡等原因出现较多匹配问题。典型代表如Anton Milan等人提出的CEM(参考：Milan,A.and Roth,S.and Schindler,K.,Continuous Energy Minimization for Multi-Target Tracking,IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE,VOL.36,NO.1,2014)，NChoi W等人提出的NOMT(参考：NChoi W.Near-online multi-target tracking with aggregated local flow descriptor.Proceedings of the IEEE International Conference on Computer Vision.2015:3029-3037.)。

(2)数据关联模型主要集中在如何将目标进行匹配。其中一类方法是将数据之间的关联建立为贝叶斯模型，这类方法虽然能改善因遮挡等带来的跟踪问题，但往往需要求取大量的参数，典型代表如Yu Xiang提出的MDP(参考：Xiang Y,Alahi A,Savarese S.Learning to track:Online multi-object tracking by decision making,Proceedings of the IEEE International Conference on Computer Vision.2015:4705-4713.).另一类方法是将其建模为图模型，通过求解能量最小化的图割模型来获得跟踪结果，这类方法虽然能得到最优或者局部最优的解，但往往将跟踪问题离线化，且速度较慢，典型代表为Anton Milan等人提出的DCE(参考：Milan A,Schindler K,Roth S.Multi-target tracking by discrete-continuous energy minimization.IEEE transactions on pattern analysis and machine intelligence,2016,38(10):2054-2068.)，还有一类新的方法，这类方法探索使用递归网络对跟踪的时序问题进行建模，虽然能更大程度的利用跟踪中的运动连续信息，但是其与特征的融合仍存在较多问题，典型代表为Anton Milan等人提出的RNN-based的方法(参考：Milan A,Rezatofighi S H,Dick A,et al.Online multi-target tracking using recurrent neural networks[J].arXiv preprint arXiv:1604.03635,2016.)。

技术实现要素：

本发明的目的在于克服现有多目标跟踪技术的缺点与不足，提出一种基于深度学习和条件随机场的多目标跟踪方法，该方法既能快速有效地区分相似目标，又改善了因遮挡等原因造成的跟踪间断的问题，且利用滑动窗口的方式实现了半在线的跟踪方法，使得多目标跟踪方法更为精确有效。

本发明的目的通过以下的技术方案实现：一种基于深度学习和条件随机场的多目标跟踪方法，包括步骤：

S1、训练网络：利用给定的训练集，训练一个深度网络；

S2、应用阶段：输入待处理视频的目标检测结果，对检测结果进行筛选，得到筛选后的检测结果；

S3、提取特征：将筛选后的检测结果输入深度网络中，得到检测结果的表观特征；

S4、产生跟踪片段：根据滑动窗口中检测结果和检测结果之间、目标与检测结果之间的表观特征相似度和位置关系，将可能为同一目标的检测结果连接成跟踪片段；

S5、建模：将跟踪片段集合进行建模得到条件随机场模型，其中条件随机场中的点代表某一跟踪目标的可能的跟踪片段集合，集合的大小为跟踪片段的个数；点与点之间存在的边表示不同目标的跟踪片段之间共存的可能性；

S6、计算：计算条件随机场中点的势能与边的势能；

S7、求解：利用联合树算法求解，得到每个目标的跟踪片段索引，作为该滑动窗口内的跟踪结果；

S8、滑动窗口，设定滑动步长，计算滑动窗口内的跟踪结果，依次循环，得到整个视频的跟踪结果。

作为优选，在步骤S1中，深度网络包含两个卷积层、两个全连接层和一个归一化层，训练使用的损失函数是triplet-loss损失，其表达式为：

上式中，为锚点，即某个目标的表观特征，为正样本特征，正样本为与锚点属于同一个目标的其他样本，为负样本特征，负样本为与锚点属于不同目标的样本，σ为松弛参数。

优选的，在步骤S2中，对目标检测后的结果进行筛选，筛选包括：去掉检测置信度得分低于阈值的检测结果；去掉检测结果与真实标注的交并比大于一定阈值的检测结果；所述检测置信度得分是检测器对该检测结果的信心值，交并比是指两个检测框相交的面积除以并集的面积得到的比例，越大表示检测框体与真实标注框体重合度越高。

作为优选，在步骤S3中，将筛选后的检测结果输入到深度网络提取特征前需将检测结果归一化到相同尺寸，深度网络最后一层全连接层的输出作为检测结果的表观特征。

作为优选，在步骤S4中，将表观相似度与运动相似度分别大于给定阈值的检测结果连接构成跟踪片段，其中表观相似度使用欧式距离度量，其数学公式为其中f(di)m，f(dj)m分别为检测结果di,dj表观特征的第m维；

运动相似度用检测结果与跟踪片段在当前帧中检测框体的位置的交并比的平方来衡量，两个框体交并比的数学表达式为其中p,d分别为预测框体和检测框体，inner(p,d)为两框体的重叠面积，union(p,d)为两框体的联合面积。

更进一步的，所述预测的框体位置采用二项式拟合来预测，具体是：先根据跟踪片段中框体的位置来确定二项式的参数，其数学表达式为其中x,y分别为框体的中心位置，n为跟踪片段内框体个数，为二项式拟合函数，通过上式即可求得二项式的参数；同理，可拟合出时间t与x的二项式函数然后预测该跟踪片段在t1时刻框体的位置为其中h为已连接的跟踪片段。

更进一步的，预设一遗忘时间，如果在后续的跟踪片段中一目标超过遗忘时间都没有出现，则删除该目标。

作为优选，在步骤S6中，计算条件随机场中点的势能，其数学表达式为其中T为滑动窗口的长度，为滑动窗口前已知的第m个跟踪目标，为该跟踪目标在滑动窗口内的第xm条跟踪片段；

其中表示跟踪目标与跟踪片段内检测结果的势能，第一项为表观相似度的势能，第二项为位置关系的势能，η为参数，为该目标在滑动窗口内最后一次出现的时刻，o2为预测框体与检测框体交并比率的平方；

fp(di,dj)＝-DA(di,dj)为某跟踪片段内两个检测框体的势能，为高阶势能ξ为计算预测框体与检测框体中心点之间的欧式距离，K为计算两检测结果的颜色直方图的欧式距离，γ,ε,θ为参数。

作为优选，在步骤S6中，不同目标跟踪片段间的势能主要惩罚不同目标的跟踪片段在某一时刻为连接了同一检测框体的情况，边的势能数学表达式为：

其中为跟踪片段在时刻τ所连接的检测框体，为知识函数，当两个跟踪片段是时刻τ所连接的是同一个检测框体时为1，否则为0，α,β为参数，其中β要超过一定值，且该值要足够大，以此避免框体的重复分配。

本发明与现有技术相比，具有如下优点和有益效果：

1、本发明方法基于深度卷积神经网络，使用triplet-loss训练网络使得网络输出的特征更具有判别能力，使得更容易区分不同目标，网络结构的选择保证了提取特征的速度。

2、本发明方法提出新的跟踪片段相似性度量方法。将表观特征和运动特征相融合，加入物体的运动连续性特征使得信息更加丰富，同时也考虑到了跟踪片段在同一时刻的互斥的特性，使得度量更完善。

3、本发明方法实现一种基于跟踪片段集的半在线跟踪算法。将有可能为同一目标的检测结果连接得到跟踪片段集合作为条件随机场中的点，使得跟踪结果在滑动窗口内局部最优，利用联合树算法进行求解，也使得求解更加快速。

附图说明

图1为本发明一种基于深度学习和条件随机场的多目标跟踪方法流程示意图。

图2为本发明方法在一般评价标准上的性能结果。

图3(a)-(c)为本发明方法的跟踪效果示意图。

具体实施方式

附图仅用于示例性说明，不能理解为对本专利的限制；为了更好说明本实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；对于本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。下面结合附图和实施例对本发明的技术方案做进一步的说明。

本次实验在MOT16数据集上进行(参考：Milan,A.and Leal-Taix,L.and Reid,I.and Roth,S.and Schindler,K.MOT16:A Benchmark for Multi-Object Tracking.arXiv:1603.00831)，这是多目标跟踪算法常用的数据集，该数据集分为训练集和测试集两部分，各包含7个场景的视频片段，每个片段包含的帧数由450到1500不等。图3是该数据集的部分图像示例。由该图可以看出，该数据集包含了多种情景，目标较为密集，背景复杂，在该数据集上进行实验具有一定的挑战性。

图1展示了本发明一种基于深度学习和条件随机场的多目标跟踪方法的具体步骤，以下是步骤的详述：

(1)利用训练集给定的图片和标注信息对深度卷积网络进行训练，其中网络结构包括两个卷积层、两个全连接层和一个归一化层，训练使用的损失函数是triplet-loss损失。输入网络前需将检测结果归一化到80*230大小。

(2)对待处理视频目标检测后给出的检测结果进行预处理，包括：去掉检测得分低于阈值的检测结果，本实验中该阈值设置为dtTre＝0；去掉交并比大于一定阈值的检测结果，本实验中交并比阈值设置为iouThre＝0.7。

(3)将时间滑窗内预处理后的检测结果进行归一化，本实验中时间滑窗长度T＝10，归一化尺度为80*230，然后输入深度卷积网络提取特征，每个检测结果在通过最后的全连接层后得到400维的特征向量作为其表观特征。

(4)产生跟踪片段。如果当前帧为第一帧，则该帧中每个检测结果作为一个目标，如果不是第一帧，则计算当前帧中的检测结果与已有跟踪片段的相似度，包括根据计算检测结果有已有跟踪片段中检测结果的表观相似度，以及利用计算某跟踪片段在当前帧中预测框体的位置，并根据计算检测结果与预测框体的交并比的平方作为其运动相似度。如果表观相似度和运动相似度分别高于给定阈值，则认为该检测结果有可能与该跟踪片段属于同一目标，将其进行连接，除此之外设置遗忘时间deleteT＝15帧，一般监控视频的帧率是25帧每秒，即25fps，即超过遗忘时间都没有出现的目标将其删除，最后得到滑动窗口内的多个跟踪片段。

(5)建模。滑动窗口内属于同一目标的跟踪片段集作为一个点，跟踪片段与跟踪目标的相似度采用本发明提出的度量方式，根据计算跟踪每个点的势能向量，本实验中设置参数为(η,γ,ε,θ)＝(0.98,20,0.4,0.8)；同时根据计算点与点之间边的势能，本实验中设置参数为(α,β)＝(0.5,1000)。因此每个点的势能向量为其中i指第i个点，也即当前的第i个跟踪目标，N为该跟踪目标在滑动窗口内的跟踪片段个数；每条边的势能矩阵为其中i,j分别代表点i,j，N和M分别代表点i,j中包含的跟踪片段个数。

(6)求解。利用联合树算法对形成的条件随机场进行求解。本发明所采用的求解方法本身对于结果并无影响，所以直接采用标准工具包(参考:M.Schmidt.UGM:AMatlab toolbox for probabilistic undirected graphical models)进行求解，不做修改。

(7)滑动窗口，滑动步长step＝5，计算滑窗内的跟踪结果，依次循环，得到整个视频的跟踪结果。

图2所示为本次实施的实验在一般评价标准上的性能结果，实验评估标准与论文“MOT16:A Benchmark for Multi-Object Tracking”(参考：Milan,A.and Leal-Taix,L.and Reid,I.and Roth,S.and Schindler,K.MOT16:A Benchmark for Multi-Object Tracking.arXiv:1603.00831)提出的标准相同，该论文提供了多目标跟踪领域的基本评估标准。其中MOTA为跟踪的准确度；MOTP为跟踪的精确度，主要与检测器的精确度有关；MT(most tracked)，表示超过目标真实跟踪结果80％的目标数目；ML(most lost)，表示低于目标真实跟踪结果20％的目标数目；FP(false positive)和FN(false negative)分别表示误报率和漏报率，IDs(ID switch)即为跟踪ID交换的次数，FPS为算法每秒处理的帧数，来评估算法的效率。从图2中可以看出，本实验的效果要优于用递归网络的多目标跟踪方法(RNN_based)。

从图3中三组跟踪效果可以看出，本发明的跟踪方法，对检测结果较准确的数据集，如在(a)组和(b)组中，检测框体较准确，跟踪效果也相对较好；在检测本身存在较大误差时，跟踪效果也随之变差；在背景杂乱、目标较多的场景下，对于检测较准的目标跟踪依然较准。

可通过各种手段实施本发明描述的技术。举例来说，这些技术可实施在硬件、固件、软件或其组合中。对于硬件实施方案，处理模块可实施在一个或一个以上专用集成电路(ASIC)、数字信号处理器(DSP)、可编程逻辑装置(PLD)、现场可编辑逻辑门阵列(FPGA)、处理器、控制器、微控制器、电子装置、其他经设计以执行本发明所描述的功能的电子单元或其组合内。

对于固件和/或软件实施方案，可用执行本文描述的功能的模块(例如，过程、步骤、流程等)来实施所述技术。固件和/或软件代码可存储在存储器中并由处理器执行。存储器可实施在处理器内或处理器外部。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储在一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。