视频目标追踪算法是机器视觉中一项很实用重要的算法,视频目标追踪算法应用场景很广,比如智能监控、机器人视觉系统、虚拟现实(人体跟踪)、医学诊断(细胞状态跟踪)等。本文由滴普科技2048团队AI产品部算法工程师朱晓丽介绍基于机器视觉的典型多目标追踪算法应用实践。
概述
目标追踪算法分为单目标追踪SOT(Single-Object Track)和多目标追踪MOT(Multi-Object Track)【1】【2】。在单目标跟踪中,使用给定的初始目标位置,在后续视频帧中对给定的物体进行位置预测。而多目标跟踪算法,大部分都是不考虑初始目标位置的,目标可自行消失与产生。对目前小组项目而言只需用到MOT,所以本文提到的追踪默认为MOT。
1. MOT的分类
(1)TBD(Tracking-by-Detection)与DFT(Detection-Free Tracking)也即基于检测的多目标跟踪与基于目标外形的先验知识无需检测器的多目标跟踪。TBD是目前学界业界研究的主流。
(2)传统的跟踪方式有在线跟踪(Online)与离线跟踪(Offline)两种。在线跟踪算法中,只能使用当前帧及之前帧的信息来进行当前帧的跟踪。而在离线跟踪算法中则没有了这个限制,对每一帧的预测,都可以使用整个视频的信息,这样更容易获得一个全局最优解。两种方式各有优劣,一般视应用场合而定,离线跟踪算法的效果一般会优于在线跟踪算法。而介于这两者之间,还有一种称之为接近在线的多目标跟踪算法(NOMT),即可以部分利用未来帧的信息。
在跟踪结果可修改性方面,在线跟踪是不允许修改以往的跟踪结果的。因为一旦修改,算法自然就不再符合在线跟踪原则,从而不能利用未来帧,进而变成了Near-Online或者Offline的跟踪方式。
需要特别注意,在线跟踪不等于Real-Time实时跟踪,实时跟踪一定属于在线跟踪的,但绝大部分在线跟踪算法速度还太慢,不足以支持实时处理的要求. 尤其是应用了深度学习的算法,往往需要大量运算,对实时处理有较大压力。
2. MOT常用评价标准
此外,还有两种评价方式CLEAR MOT Metrics与ID Scores,这里不做详细介绍。
3. MOT的难点
MOT最常用的类别是Tracking-By-Detection与Online,对应的算法处理步骤:
其中,有两个难点:
1)遮挡,这也是ID交换和轨迹分段的主要原因。
2)两个轨迹非常靠近,ID容易匹配不准,出现错位或丢失。
目前所有目标追逐算法都围绕着这两大难点进行优化,优化的方向围绕着这四个步骤,如:运用Private Dataset,挑选合适检测模型,提升检测精度;特征提取不局限于一般的CNN,还有Siamese Network等网络;特征间的相似度,不再是简单的Distance Me