源自:控制与决策
作者:金沙沙 龙伟 胡灵犀 王天宇 潘华 蒋林华
摘要
多目标跟踪的研究对于构建人、路、车、云协同一体化的智能交通监控系统具有广泛的应用价值, 传统手工设计特征的方法对高层信息的表征能力有限, 难以进行复杂场景下的多目标跟踪, 随着深度学习的发展, 多目标跟踪算法的性能取得较大进展.为了宏观把握基于深度学习的多目标跟踪算法的研究进展, 首先比较基于检测的跟踪算法、基于联合检测与跟踪算法、基于单目标跟踪器的多目标跟踪算法的优缺点; 然后介绍多目标跟踪算法在智能交通监控场景的应用; 最后总结目前多目标跟踪存在的问题与挑战, 对多目标跟踪算法未来在智能交通领域的发展进行思考和展望.
关键词
智能交通系统 多目标跟踪 深度学习 智能化 目标检测 研究进展
引 言
随着城市化进程的加快, 我国公路规模发展迅速.根据交通运输部的数据显示, 截至2020年底, 我国公路里程达519.81万公里, 其中高速公路16.1万公里.但是, 公路建设的速度仍不及汽车保有量的增长速度, 这是导致汽车在道路上行驶时产生交通拥堵、事故频发、交通管理水平低等现象的原因之一.智能交通系统集成了车联网、物联网、自动控制、智能计算、管理等技术, 充分利用智能化、网联化的技术进行了信息融合[1].云端平台汇集了车端、路端等信息后, 可以构建智能化的城市“交通大脑”, 做出交通系统的状态预测、交通的优化调度与控制决策[2], 能够有效提升驾驶安全性和交通流稳定性[3], 使车辆以更加节能的状态行驶, 有助于节能减排[4].交通监控系统是智能交通系统的子系统之一, 在车辆检测与车流量统计、违章行为识别、交通事件预警、逃逸车辆跟踪等方面起到重要作用.
传统的交通监控系统需要大量人工参与, 具有劳动强度大、实时性差、人工成本高等缺点, 其在城市交通严峻的形势下暴露出一些弊端: 1)极端恶劣天气条件下(如暴雨、浓雾、黑夜等), 交通事故的防范能力不足; 2)“数据孤岛”现象突出, 未能达到监控信息同步共享; 3)已有监控设施科技含量低, 仍需更新技术, 提高效率.基于手工设计特征的方法对高层信息的表征能力有限, 难以在复杂场景下进行多目标跟踪.近年来, 随着信息处理技术与深度学习技术的发展, 基于计算机视觉的目标跟踪方法逐步应用于智能交通监控系统[5-6].
1 多目标跟踪算法
视觉目标跟踪是计算机视觉领域的研究热点之一, 广泛应用于智能交通[7]、无人机目标侦查[8]、水面无人艇[9]等领域.鉴于大部分应用场景中需要跟踪的目标数量较多, 本文聚焦于归纳和总结多目标跟踪算法.多目标跟踪的任务是在视频中随着时间的推移定位多个移动目标.现有的多目标跟踪算法按跟踪技术大致可划分为: 基于检测的跟踪算法、联合检测与跟踪算法、基于单目标跟踪器的多目标跟踪算法.
1.1 基于检测的跟踪算法
基于检测的跟踪(tracking by detection, TBD), 是一种两阶段目标跟踪的方法, 如图 1所示.该方法采用检测器对视频序列的帧进行目标检测, 再利用跟踪器提取特征并应用数据关联方法找出目标的轨迹对应关系.
图 1 基于检测的跟踪算法
1.1.1 检测器
基于检测的多目标跟踪方法能够跟踪任意数量的目标, 但该法需要训练特定的目标检测器, 而检测结果对跟踪效果的影响很大[10-11].根据是否生成候选区域, 目标检测器分为两阶段目标检测方法(two-stage)和单阶段目标检测方法(one-stage), 如图 2所示.两阶段目标检测是指先单独生成目标候选区域, 再对其进行分类.单阶段目标检测是指不生成候选区域, 直接输出分类和定位信息.
图 2 目标检测算法
代表性的两阶段目标检测算法有R-CNN[12-15]系列、SPPNet[16]等.R-CNN[12]首次将卷积神经网络(convolutional neural network, CNN)引入目标检测任务, 提高了目标检测的准确率, 搭建了图像分类与目标检测之间的桥梁.然而, CNN的全连接层限制了输入图像的尺寸, 通过裁剪或拉伸的方法使输入图像变成CNN所需要的尺寸会导致图像内容丢失或失真.鉴于此, SPPNet直接将整张图像输入CNN中进行特征提取得到特征图, 再将选择性搜索算法(selective search, SS)获取的约2k个候选区域映射到特征图上, 然后用4个尺度的空间金字塔滤波器对每个候选区域的特征进行最大池化, 并将池化结果拼接起来以输出固定长度的特征向量, 从而满足全连接层的固定尺寸约束.虽然SPPNet通过共享计算的方式比R-CNN的速度提升了几十倍, 但SPPNet沿用R-CNN中分阶段训练网络的方法, 致使训练的速度较慢.针对该问题, Fast R-CNN[13]不仅简化了空间金字塔池化层, 提出了感兴趣区域池化层(ROI pooling), 还采用多任务损失将训练过程整合为一个阶段, 从而使得在相同配置和同一数据集上, Fast R-CNN比SPPNet训练速度快3倍、测试速度快10倍, 比R-CNN训练速度快9倍、测试速度快213倍.
以上算法均采用SS算法生成候选区域, 影响模型整体的速度.因此, Faster R-CNN[14]提出了利用区域建议网络代替SS算法, 进一步将测试时间较Fast R-CNN提升了约9.3倍.Mask R-CNN[15]采用感兴趣区域匹配(ROI Align)代替ROI pooling, 以解决ROI pooling两次将坐标值取整的量化操作造成的区域不匹配问题, 并在Faster R-CNN的基础上增加掩膜损失, 整体较Faster R-CNN的检测精度提升3.6%.Cai等[17]将检测器的检测质量定义为检测框与真实框之间的交并比(intersection over union, IoU)大小.提高检测器训练时的IoU阈值虽然能提高检测质量, 但是会降低检测器的准确率.针对该问题, Cascade R-CNN[17]将多个检测器级联在一起, 使前一个IoU阈值低的检测器的输出作为后一个IoU阈值高的检测器的输入, 从而在优化检测质量的同时提高检测精度.经过测试, 级联结构能使R-CNN系列算法的精度提升24%.Mask R-CNN与Cascade R-CNN均在不同层面上对Faster R-CNN进行增强和拓展, 但均未解决训练过程中存在的不平衡问题.为了缓解该问题, Libra R-CNN[18]优化了采样方式, 改进了特征融合方法, 平衡了多任务的损失, 使得检测精度较Faster R-CNN提升了2.5%.在两阶段目标检测中, 准确地对候选框进行排序是提升检测器性能的关键之一.VFNet[19]提出了交并比感知分类评分法(IoU-aware classification score, IACS)同时表示目标存在的置信度和定位精度, 并设计可动态缩放的二元交叉熵损失训练检测器以预测IACS.当使用相同的主干网络时, VFNet的检测精度比Cascade R-CNN高3.9%.
典型的单阶段目标检测算法有YOLO系列[20-23]、EfficientDet[24]等.YOLOv3[22]拓展了主干网络Darknet的深度, 并借鉴ResNet[25]的思想加入残差跳跃连接, 解决了深层次网络的梯度问题.在与SSD[26]达到同样的精度时, YOLOv3的速度大约是SSD的3倍.考虑到实际应用中计算资源与软件支持不足, YOLOv3仍是目前工业上应用最广泛的检测器之一.为了克服资源限制的难题, 许多研究人员都致力于优化模型——在提高检测器准确性的同时保证检测器运行的效率.EfficientDet[24]通过改进特征金字塔网络的结构提出了一种加权的双向金字塔网络以高效融合多尺度特征.受文献[27]启发, EfficientDet设计了将模型深度、宽度、图像分辨率等进行复合缩放的方法.从EfficientDet-D0到EfficientDet-D7, 检测器的速度逐渐变慢, 但精度逐渐提升.在与YOLOv3达到相同精度时, EfficientDet-D0的运行时间仅为YOLOv3的1/3左右.
YOLOv4[23]相较于YOLOv3, 增加了很多训练技巧, 如马赛克数据增强、自对抗训练, 并改进空间注意力机制, 融合特征金字塔[28]与路径聚合网络[29]等.多种先进算法的集成使YOLOv4在相同检测速度时, 检测精度比YOLOv3提高约10%, 在相同检测精度时, 检测速度是EfficientDet的2倍左右.为了满足实际工程部署的需要, YOLOv4原作者团队也对模型缩放技术进行研究, 提出了一套模型——Scaled-YOLOv4[30], 进一步实现了检测速度与检测精度的平衡, 如其中YOLOv4-P5达到了与EfficientDet-D5相同的精度, 而检测速度是EfficientDet-D5的3倍.
在YOLOv4发布后不到两个月, Ultralytics LLC公司在Github上发布了YOLOv5的开源项目.YOLOv5除了沿用YOLOv4中的马赛克数据增强方法外, 还在算法中嵌入自适应锚框计算功能.截至目前, YOLOv5已经更新到V6.0版本, 既减小了模型尺寸又提高了目标检测的准确率和推理速度, 更适合用于工业项目落地应用.但以上YOLO系列算法采用的锚框设计增加了检测器的计算负荷, 基于此, 旷视科技结合头部解耦、无锚框设计、高级标签分配等目标检测先进技术对YOLO算法进行改进, 提出了无锚框的高性能检测器——YOLOX[31].将检测头进行解耦, 可以在仅增加一点参数量的情况下, 大大提升YOLO系列算法的收敛速度.YOLOX将标签分配建模成最优传输问题, 通过求近似解的方法减少了训练时间并有效避免了求解额外超参数的状况发生.
不同算法各有优势, 表 1汇总了典型目标检测算法在不同测试集上的检测时间与平均精度(mean average precision, mAP).从表 1中可以看出, 大部分单阶段目标检测方法比两阶段目标检测方法检测速度快, 同时期的目标检测算法中, 两阶段的目标检测算法的平均检测精度较高.随着时间的发展, 单阶段目标检测算法在提高平均检测精度的情况下仍保持了较快的检测速度.
表 1 典型检测方法在不同数据集上的运行速度与平均精度
1.1.2 跟踪器
在目标跟踪中, 两阶段是指检测与跟踪独立, 先检测再跟踪的方法.依据处理视频帧模式的不同, 基于检测的跟踪又可以分为离线跟踪(offline tracking)和在线跟踪(online tracking).
离线跟踪, 又名为批量跟踪, 是一种利用全局信息来进行数据关联的跟踪方式, 如图 3所示.但是, 受算力和内存的限制, 离线跟踪一般将视频分段分批处理.得益于批量帧处理, 离线跟踪理论上可获得全局最优跟踪结果, 然而其实时性较差, 应用场景有限.目前, 离线跟踪一般应用于运动分析、医学图像处理等场景.
图 3 离线跟踪
MCMOT[32]是一种基于变点检测的多类别多目标跟踪算法.该算法在检测到遮挡时, 只跟踪可见目标, 并将整体轨迹分为几个轨迹段.若关联目标存在歧义, 则终止轨迹段; 若相同目标再次出现, 则在终止的跟踪点附近重新开始跟踪.结合层次数据模型的MCMOT_HDM离线跟踪方法, 实现了跟踪速度与跟踪准确率的平衡.为了进一步提升跟踪的准确率, 部分学者专注于数据关联并做了一些研究.KDNT[33]构造了基于外观、运动和平滑的密集近邻(dense neighbors, DN)关联矩阵, 将跟踪视频分为多个不相交的片段, 再利用DN搜索每个片段中的小轨迹, 以实现小轨迹间的关联.LMP[34]将多人跟踪抽象为一个最小成本提升多割问题, 通过对图的分解确定其可行解.针对长期遮挡的问题, GCRA[35]提出基于深度孪生双向门控循环单元的轨迹重连接方法, 将隶属于同一目标的子轨迹连接起来, 以形成一个完整的轨迹.不相交路径问题是一种经典的组合优化问题, 为了解决图中不相交路径表达能力有限的问题, Lif_T[36]引入额外的提升边(lifted edges)来提供路径连通先验, 并从多面体的角度研究优化问题, 提出了一种多面体松弛(polyhedral relaxation)以从全局求解多目标跟踪问题.
在线跟踪又名顺序跟踪, 是一种逐帧渐近的跟踪方式, 如图 4所示.在处理当前帧时仅利用此帧与先前帧的信息进行数据关联, 该法实时性强, 但易受目标遮挡和检测器漏检、误检的影响.在线跟踪的特点使其广泛应用于自动驾驶、智能视频监控等领域.SORT[37]以目标之间的IoU作为衡量两个目标之间距离的标量, 采用匈牙利算法构建含IoU的关联矩阵.DeepSORT[38]在SORT的框架基础上增加外观信息提升算法性能, 以实现存在较长时间遮挡的目标跟踪.SORT和DeepSORT是目前工业界比较流行的在线跟踪算法.POI[33]采用卡尔曼滤波进行轨迹预测, 并使用Kuhn-Munkres算法将轨迹跟新的检测结果相关联.EAMTT[39]在概率假设密度粒子滤波框架中设计了强、弱检测器, 其中强检测器具有较高的置信度, 用于初始化和跟踪; 弱检测的置信度较低, 用于处理漏检.HOGM[40]将多目标跟踪归结为一个高阶图匹配问题, 用一个代表关联元组之间关系的张量定义多线性目标函数.CNNMTT[41]观察到许多行人倾向于集体行走, 同一集体的人彼此靠得很近, 且具有速度相关性, 而不同集体之间存在排斥, 倾向于保持一定的空间, 利用这种社会先验知识可以提升跟踪算法的性能.
图 4 在线跟踪
部分基于检测的多目标跟踪方法在MOT16数据集上的跟踪时间、整体框架预估速度和准确率(multi-object tracking accuracy, MOTA)如表 2所示.
表 2 基于检测的多目标跟踪方法在MOT16数据集上的运行速度和准确率
表 2中的FPS指帧/s, 由跟踪时间与检测时间叠加推算出来.推算过程中的目标检测时间统一采用MOT Challenge中较为流行的检测器Faster R-CNN的最快运行时间(59ms).由表 2可见, 在线跟踪的速度普遍较快.改善同一跟踪方法的检测器, 能使跟踪性能得到较大提升, 如LMP和EAMTT在公开检测器下的性能不如使用私人检测器.离线跟踪可以结合过去和未来的帧进行数据关联, 利用比在线跟踪更多的信息, 因此准确率较高.如KDNT是POI的离线版本, 其采用离线训练的方法使得跟踪精度高于POI.
1.2 联合检测与跟踪算法
基于检测的跟踪虽然跟踪性能处于领先水平, 但是模型比较复杂, 计算代价较高, 难以均衡算法精度与跟踪速度.与基于检测的跟踪两阶段模式不同, 联合检测与跟踪(joint detection and tracking, JDT)是多个模块联合学习的单阶段跟踪算法, 如图 5所示.JDT减轻了框架的复杂度, 满足了车辆跟踪的实时性要求.
图 5 联合检测与跟踪算法
JDE[42]框架将目标检测与外观模型嵌入到共享网络中进行学习, 提高了目标跟踪算法的运行速度, 且准确率高于DeepSort.Zhang等[43]研究发现, 使用锚框可能给网络造成歧义, 导致跟踪效果下降, 因此在FairMOT中摒弃锚框, 进一步提高了运行速度和跟踪精度.CenterTrack[44]是基于对象中心点的联合检测与跟踪方法, 简化了跟踪框架的复杂性.该方法采用CenterNet[45]定位对象中心, 并以先前小段轨迹的帧的热图作为先验, 对相邻两帧进行检测, 输出当前物体中心点与其前一帧检测中心点之间的距离.
Chained-Tracker[46]首次将目标检测、特征提取、数据关联集成到一个端到端的解决方案, 但跟踪部分耗时较以往的算法更长.Sun等[47]利用transformer和注意力中的查询-键机制提出一种在线联合检测与跟踪方法——TransTrack, 在MOT-16数据集上能够达到74.5%的跟踪准确率.TransTrack的运行速度在输入图像的短边分辨率为800像素时, 运行速度约为10FPS.TraDeS[48]利用跟踪线索辅助检测, 通过代价容量函数推断目标跟踪偏移量, 以改进当前的目标检测.TubeTK[49]引入了“边界管道”指示目标的时空位置, 具有一定的抗遮挡能力.CorrTracker[50]利用局部相关模块构建目标与其周围环境之间的拓扑关系, 增强了模型在拥挤场景中的识别能力.
近些年出现的JDT算法在MOT Challenge中不同数据集上的运行速度与算法精度如表 3所示.
表 3 联合检测与跟踪算法在不同测试集的速度和准确率
由表 2和表 3可见, 大部分联合检测与跟踪方法的跟踪速度要快于基于检测的跟踪, 这是因为基于检测的跟踪框架将检测与跟踪看作两个独立的部分学习, 计算量较大.而联合检测与跟踪算法是多任务学习, 降低了框架的复杂度, 减少了计算代价.
1.3 基于单目标跟踪器的多目标跟踪算法
单目标跟踪器(single object tracker, SOT)在过去的几十年中取得了长足的发展, 虽然其仅能得到视频中一个物体的跟踪轨迹, 但与多目标跟踪任务有很强的联系.事实上, 一个多目标跟踪任务确实可以用多个单目标跟踪器来实现.如图 6所示, 基于单目标跟踪器的多目标跟踪算法首先对视频序列进行目标检测, 其次对所有目标进行单目标跟踪以获得表观特征和运动信息等新的特征, 最后再进行多目标跟踪从而生成跟踪轨迹.
图 6 基于单目标跟踪器的多目标跟踪算法
目前, 利用单目标跟踪器的多目标跟踪算法较少, 表 4汇总了部分基于单目标跟踪器的多目标跟踪算法在MOT Challenge中基于公开检测赛道的不同数据集上的运行速度和算法精度.
表 4 基于单目标跟踪器的多目标跟踪算法在不同测试集上的速度和准确率
DMAN[52]将单目标跟踪和数据关联的优点集成在一个统一的框架中, 提出了具有时空注意机制的双匹配注意网络以适应对多目标跟踪的遮挡和噪声检测.Chu等[51]将基于CNN的单目标跟踪器应用于MOT, 通过在多个目标之间共享计算解决计算复杂度问题, 并引入时空注意力机制处理遮挡与模板间相互作用引起的漂移问题.该模型定位输出与检测模块相互独立, 每个单目标跟踪器需要处理大量背景, 做了许多重复的计算, 计算开销较大.针对该问题, Yin等[55]将物体运动模型与关联模型集成到一个网络, 设计了一种面向在线的多目标跟踪算法UMA.该方法简化了训练过程, 只需要一个训练阶段, 提高了计算效率.即便如此, 该方法的运行速度仅为5FPS, 难以满足车辆跟踪实时性的要求.FAMNet[53]是以孪生网络为单目标跟踪器的多目标跟踪方法, 该方法将多目标跟踪视为多维分配问题, 融合了特征子网络和相似性度量子网络进行全局优化, 获得最优分配.Feng等[54]充分利用长期、短期的线索处理多目标跟踪中的复杂案例, 提出了切换感知分类器以防止同一目标的ID发生变化.
为了提高SOT类MOT算法的跟踪速度, Zheng等[56]基于可微且具有封闭解的判别式单目标跟踪模型DCFST[57], 利用CenterNet[45]作为检测器, 提出SOTMOT算法, 该方法跟踪速度较快, 能够同时跟踪几十个目标.
由表 2∼∼表 4可见, 基于单目标跟踪器的多目标跟踪方法仍在起步研究阶段, 其运行速度与准确率仍有待提高.其中速度最快的是SOTMOT算法, 能够在1s内跟踪约8帧的图像.若采用私人检测器, SOTMOT在MOT17测试集上的跟踪速度可以达到16FPS.基于SOT的MOT算法采用了性能强大的单目标跟踪模型, 对于跟踪目标数量较少具有一定的鲁棒性.但是, 基于单目标跟踪器的多目标跟踪方法针对每个目标进行一次跟踪, 随着跟踪目标数量的增加, 计算增长的消耗较大.如何平衡跟踪精度与跟踪速度, 提高多目标跟踪的效率, 是基于单目标跟踪器的多目标跟踪算法所要解决的主要问题之一.
2 多目标跟踪算法在智能交通监控场景中的应用
智能交通监控系统是指通过在城市各个节点部署高清网络摄像机和光纤传输模块以采集交通信息, 从而构建涵盖道路流量监控、车辆运行状态监控的综合分析与科学决策系统.该系统对于目标跟踪的需求主要包括:
-
1) 快速响应突发事件: 系统应及时反应流量监控情况, 发出形势异常警告, 促进减少偶发性交通拥堵状况, 便于智能调度或应急救援, 为管理决策提供科学依据.
-
2) 跟踪具有可靠性: 智能交通监控系统需要目标跟踪为公众、企业和管理部门提供准确的信息, 如交通流信息、车辆定位信息、交通事件信息、逃逸车辆行驶轨迹等.
-
3) 促进合作, 信息共享: 智能交通系统要求将跟踪数据有效整合与分析, 提高智能视频监控覆盖面, 建立视频监控统一管理平台, 使交通监控与城市安防等业务相融合.
多目标跟踪在智能交通监控中有许多应用场景, 如车流量检测、跨摄像头车辆跟踪、车辆异常行为检测与跟踪等.
2.1 车流量检测
车流量检测有助于对交通做出诱导控制, 缓解交通拥堵状况, 提升交通流效率和车辆吞吐量[58], 提高交通信号灯的使用效率[59].获取车辆事故发生时的交通速度和密度也有利于事故预测[60].常见的车流量检测技术有视频检测[61]、环形线圈检测[62]、无线传感器检测[63]、超声波检测[64]等.其中基于视频的车辆检测技术近年来发展迅速, 该方法融合了视频图像处理与计算机视觉技术, 通过对车辆的识别、跟踪获得交通流参数.目前, 基于视频的检测方法主要应用在道路条件复杂的地段, 如城市道路的十字路口、高速公路立交、隧道等.
陈佳倩等[65]提出一种基于YOLOv3和DeepSort的车流量检测方法, 实现了车辆视频实时监控与跟踪计数.该方法是一种基于检测的跟踪方法, 其使用YOLOv3训练车辆检测模型, 将高精度的车辆检测结果作为DeepSort跟踪算法的输入, 从而弥补DeepSort本身假阳率高的缺陷, 提高了车流量检测的精度.百度公司与中山大学合作, 提出了一种在线运动车辆计数系统[66], 以实现对拥挤的十字路口进行交通流分析, 该系统以PP-YOLO[67]作为车辆检测器, 结合DeepSort算法进行多目标跟踪, 采用基于形状的运动分配策略和精心设计的空间约束提高了检测效果.
车流量检测技术的发展与交叉路口智能信号引导系统相结合, 能够帮助合理调整信号灯的时长, 从而缓解交叉路口的交通流矛盾.
2.2 跨摄像头车辆跟踪
近年来, 在建设智慧城市的热潮下, 多目标跨摄像头跟踪(multi-target multi-camera tracking, MTMCT)引起了研究人员和政府机构的广泛关注. 跨摄像头车辆跟踪是MTMCT的子任务, 可以更好地助力交通设计和交通流优化, 因此在现代交通管理系统中扮演着重要角色.一般而言, MTMCT可以分解为单摄像头多目标跟踪、车辆重识别、跨摄像头车辆轨迹关联等子任务.车辆重识别是其中的重要一环, 旨在构建一个跨摄像头的车辆图像检索模型[68], 能够实现对目标车辆快速查找、跟踪与定位.
受道路结构和交通规则限制, 车辆在道路上的行驶轨迹通常有迹可循.Qian等[69]提出了一种名为ELECTRICITY的跨摄像头车辆跟踪系统, 该系统采用Mask R-CNN作为帧级车辆检测器, 联合DeepSort与JDE算法中的数据关联方法实现单摄像头多目标跟踪, 将各单摄像头多目标跟踪获得的小段轨迹用聚合损失训练得到的模型进行重识别, 并利用几何信息实现跨摄像头多视角跟踪结果的同步, 加速跟踪过程.为了解决数据量不足、合成数据与真实数据存在偏差的问题, Zheng等[70]分析制约车辆重识别性能的瓶颈, 设计了一种高效的车辆重识别方法.该方法提出了新颖的数据增强策略, 即采用DG-Net[71]将不同结构和外观的车辆合成新的样本, 使用生成的对抗网络对合成车辆图像进行风格迁移, 令生成的图像更接近真实的图像, 并通过将真实车辆图像粘贴到合成的背景中以增强数据.
在多目标跟踪任务中, 由于车辆具有相似的外观, 简单的重识别模型可能无法区分外观相似的不同车辆.此外, 即使是同一辆车, 也有可能发生较大的外观变化.针对这两个问题, Liu等[72]提出了基于方向的时间掩膜以限制匹配空间, 同时提出相邻摄像头的子聚类方法以匹配相邻摄像头中的小段轨迹.目前, 较多研究仍集中在行人重识别上, 有关车辆重识别的研究相对较少.现阶段的一些联合检测与重识别的任务是相互独立的, 导致模型的内存和运行时长加倍.Munjal等[73]提出一种新的多任务损失函数, 将车辆检测、跟踪、重识别联合优化, 构建一个端到端的跨帧跟踪匹配框架, 降低了内存和运行时长的需求.该方法虽然基于单摄像头跟踪提出, 但对于跨摄像头跟踪有一定的借鉴意义.
跨摄像头车辆跟踪算法除了有助于优化交通流设计外, 还有利于快速侦破交通事故逃逸事件, 减少视频分析的人力成本, 提高侦查效率.
2.3 车辆异常行为检测与跟踪
随着车流密度逐渐增大, 车辆异常行为检测与跟踪对改善交通状况、降低交通事故发生率起着越来越重要的作用.
为了克服数据稀缺、场景多变等困难, Wei等[74]对基于无监督学习的交通异常检测进行了研究, 提出了一种基于车辆轨迹的框架, 并利用单目标跟踪器(SASiamRPN[75])提高多目标跟踪算法的性能, 降低漏检率.同时, 提出了一种自适应无监督道路掩膜生成方法, 使车辆异常行为检测框架专注于道路区域的检测.通过分析不同的车辆监控视频, Li等[76]得出当发生事故时, 相关车辆会突然停车并持续一段时间的结论, 同时提出一个假设, 即如果车辆停止时间超出交通信号灯持续时间则有可能发生交通事故.据此, 设计了一种联合帧差与车辆跟踪轨迹的方法提取假设异常区域的掩膜, 提出包含检测框跟踪和像素级回溯的多粒度跟踪算法.为了提高检测框跟踪的准确性, Wu等[77]设计了新的检测框改进方案, 在方案中融入空间融合、静态滤波、时间融合和前馈优化方法.针对复杂场景的交通异常行为, 例如车辆异常移动, Chen等[78]首次提出了双模态双边轨迹跟踪方法, 以定位车祸发生的时间.
车辆异常行为检测与跟踪算法能够在监控视频中根据车辆行驶轨迹的突变对发生的各种交通违章与交通事故事件采取及时的应对措施, 保障公路安全、高效运行.
3 多目标跟踪算法在智能交通监控场景中面临的挑战
尽管多目标跟踪技术已经取得较好的进展, 但仍难以切实满足智能交通场景的实际需求.如何提高多目标跟踪的性能, 应对目标跟踪中的挑战, 是计算机视觉研究者们目前所要攻克的难点.具体而言, 这些挑战主要包括:
1) 遮挡与再现: 在车辆行驶的过程中, 不止车辆之间因为超车或变道会发生彼此遮挡的现象, 路边的行道树也有可能对车辆产生遮挡效果.在拥挤的车流中, 频繁的遮挡会导致目标跟踪丢失部分信息, 从而降低跟踪性能.针对跟踪中的遮挡与再现问题, 有的模型采用背景建模[78]、约束混合序列蒙特卡罗(CMSMC)方法[79]、基于3D数据深度排序的匹配算法[80]进行一些尝试, 并取得了良好的效果, 但在车辆离摄像头较远的情况下性能较差.
2) 视场角度: 在跨摄像头跟踪任务中, 由于摄像头布置时视场角度不一致, 视频中车辆的外观可能会发生变化.而车辆外观是跟踪目标的重要特征, 一旦外观信息丢失, 会对目标跟踪产生很大的困扰.一些算法采用聚合损失[69]、相邻镜头子聚类[72]、感兴趣区域回溯[78]等方法挖掘视频帧间的信息, 以应对视场角度变化, 但仍依赖于数据驱动.
3) 天气影响: 在暴雨、浓雾、大风等极端恶劣的天气条件下, 目标跟踪算法的速度与精度都会受到较大影响.暴雨形成的雨水条纹遮挡了部分视频图像背景外观, 附着在镜头前的雨珠也会影响成像的效果.雾是由水汽凝结物、细小灰尘颗粒等组成的天气现象, 由于悬浮颗粒对光的吸收和折射作用, 雾天能见度低, 背景光强度大于目标光, 图像对比度与清晰度下降.风是空气流动引起的自然现象, 当风力强劲时, 户外摄像头不可避免地会抖动.恶劣的天气条件很大程度上会造成误跟踪、漏跟踪等问题.一些视频去雾[81-83]、视频去雨[84-85]、视频去抖动[86]算法虽然有利于视频图像增强, 但是无法同时保证精度和实时性.在跟踪算法中嵌入此类图像增强算法时, 可能会降低跟踪速度.
4) 尺度变化: 随着车辆与摄像头距离的不同, 摄像头获取的视频中, 车辆的尺度也会发生相应的变化, 如何提高尺度自适应性是目标跟踪算法在智能交通场景落地所要研究的关键点之一.
5) 公开可用数据稀缺: 虽然城市中摄像头很多, 但是公开的带标注数据集较少.目前, 车辆跟踪的数据集绝大部分采集的是相对简单的道路场景视频和图像.获取车流量、人流量密集, 交通情况复杂, 天气条件恶劣的交通场景数据集更有利于解决车辆跟踪的实际应用问题.一些工作探索了不同方法来合成图像以进行数据增强[70-71, 80], 而另一些工作则着重于无监督学习[63]以即时利用无标注的数据集, 但无法消除数据中正负样本不平衡所带来的影响.
6) 模型的鲁棒性: 人类智能具有高度的鲁棒性和多功能性, 而人工智能通过学习来模拟人类在某些任务上的认知能力.深度学习技术的特点是需要大量高质量训练数据和计算资源来学习模型的一系列参数, 因此模型的性能往往存在较大的局限性, 只能适应与已知数据非常接近的新情况, 泛化能力较差.
7) 模型的可解释性: 目前基于深度学习的模型的可解释性不足, 分析、决策过程作为一个“黑盒”, 也缺乏可交互性和操作性.当数据中出现随机扰动时, 便会使模型的输出结果发生较大变化, 其行为和表现难以合理解释.科学的决策离不开对目标的跟踪和对视觉场景的理解, 如何有效提取交通对象与交通环境的交互行为信息, 在建模时整合专家知识充分理解交通行为和交通规律以定义决策规则, 构建人、车、路、环境协同关联分析模型是当前智能交通监控系统亟需解决的问题之一.
4 结 语
本文将近年来的视觉多目标跟踪算法分为基于检测的跟踪、联合检测跟踪和基于单目标跟踪器的多目标跟踪3大类算法进行分析, 结合跟踪速度与跟踪准确率可以看出: 基于检测的跟踪方法由于检测与跟踪模块分离, 模型框架较为复杂, 计算代价较大, 检测与跟踪总体花费的时间比联合检测跟踪的时间长; 联合检测跟踪算法由于优化了目标跟踪的框架, 跟踪速度和检测准确度均有所提高; 基于单目标跟踪器的多目标跟踪方法是近几年来比较新的研究方向, 大部分算法跟踪速度与检测准确度仍不如前面两类多目标跟踪算法.
视觉多目标跟踪算法在智能交通场景, 如车流量检测、跨摄像头追踪、车辆异常行为检测与跟踪等领域均有较好的辅助作用.但由于跟踪目标相互遮挡、视场角度不一致、极端天气影响、跟踪目标尺度变化、公开可用数据集稀缺、模型泛化能力不足、算法可解释性较差, 多目标跟踪算法的跟踪仍面临着一些挑战.通过数据增强、迁移学习、多模态融合、增强上下文特征分析, 在建模过程中引入专家知识, 令人工智能学习专家的决策标准, 从而提高算法的普适性与鲁棒性, 能够使多目标跟踪算法更好地应用于智能交通监控场景.
本文仅用于学习交流,如有侵权,请联系删除 !!
加V “人工智能技术与咨询” 了解更多资讯 !!