随着技术的发展, 基于视频的跟踪技术在日常生活中得到了广泛的运用, 如在辅助驾驶系统(ADSD)[, 机器人视觉[, 人机交互[、智能监控[等领域取得了较好的成果. 在计算机视觉领域, 基于视频的目标跟踪技术一直都是研究的要点和难点, 它基本的流程是通过在视频初始帧给定的目标检测框得到所要跟踪的目标, 然后通过一系列视觉方法得到目标的特征, 并在接下来的视频帧中成功定位到该目标, 从而得到目标运动的速度、轨迹和方向等信息, 进一步应用在各个领域上去[.
不同于目标检测, 由于基于视频的目标跟踪中常会遇到场景复杂, 种类繁多并且多变、影响参数过多, 以及由物体本身运动特性产生的遮挡、形变、位置急剧变化等情况, 因此, 如何找到一种行之有效的方法, 使其能够具有足够的鲁棒性处理以上可能存在的各种复杂情况成为了当下亟待解决的问题[.
随着深度学习理论的不断发展, 基于深度学习对于目标强大的特征抽象能力以及对目标运动过程的拟合能力, 人们开始将深度学习应用在基于视频的目标跟踪领域上来. 本文从现有的基于深度学习的跟踪算法以及未来的发展趋势角度对基于深度学习的目标跟踪算法进行分析和展望.
1 相关技术
从目标跟踪的基本流程来看, 如
图 1
Fig. 1
图 1 目标跟踪基本流程
外观建模阶段主要包含两方面的工作, 一是通过特征提取对物体外观进行抽象描述. 在特征提取阶段, 所提取的特征不仅需要对运动目标最具代表性特征进行完备描述, 基于实时性考虑, 通常也需要在计算速度上具备一定优势. 所提取的特征可以是单一的颜色
目标跟踪的搜索策略阶段就是在跟踪的过程中, 根据当前物体所在位置, 找出帧与帧之间可能存在的位置关系, 从而在下一帧中得到物体可能所在的候选位置. 基本原理就是通过构建运动模型建立约束, 得到一组目标位置的可能候选区域. 常见的运动模型有滑动窗口、粒子滤波[、卡尔曼滤波[等.
模型更新阶段. 基于目标在跟踪过程中可能发生的变化, 跟踪问题在跟踪过程中需要一个在线更新机制实时更新目标的外观模型用以防止可能发生的漂移现象. 常用的方法主要分为逐帧更新、等间隔更新及启发式更新等方法.
目前的跟踪算法可以分为生成式模型和判别式模型两种. 生成式方法是从通过提取的相关特征中学习目标的外观模板, 在搜索区域寻找匹配程度最高的区域作为目标的方法. 其常用的方法主要有高斯混合模型[, 贝叶斯网络[, 马尔科夫模型等.
判别式方法则把跟踪问题转化为一个背景与前景的二分类问题, 通过提取的相关特征训练一个分类器, 在目标区域实现前景与背景的区分, 这种方法也被称之为track by detection[. 经典的方法有struck[, TLD[方法等. 而在实际的跟踪过程中, 由于判别式方法同时兼顾了前景与背景的信息, 所达到的效果往往比生成式方法更为优秀.
在近几年的跟踪研究中, 基于速度与性能的双重考虑, 相关滤波方法(Correlation Filter)占据了一席之地. 相关滤波方法通过极高的效率解决岭回归问题完成对目标的判断. 2011年, Bolme等人[提出了最小输出均方误差和(Minimum Output Sum of Squared Error filter, MOSSE)滤波方法, 基于信号中相关性原理, 提取图像的灰度特征, 运用最小均方误差的原理找到使得目标能够得到最大响应的滤波器. Henriques等人[提出了KCF (Kernelized Correlation Filters)滤波方法, 其利用循环矩阵的原理, 将相关滤波器的求解过程运用快速傅里叶变换转换到了频域, 同时提出了解决多特征融合的方法, 加入了HOG (Histograms of Oriented Gradients)特征[实现了跟踪效果的极大进步. Danelljan等人[提出自适应颜色属性的CN (Color Name)方法, 将输入特征变为11种颜色特征, 然后将特征维数利用降维的思想转变