图像目标检测任务在过去三年的时间取得了巨大的进展,检测性能得到明显提升。但在视频监控、车辆辅助驾驶等领域,基于视频的目标检测有着更为广泛的需求。由于视频中存在运动模糊,遮挡,形态变化多样性,光照变化多样性等问题,仅利用图像目标检测技术检测视频中的目标并不能得到很好的检测结果。如何利用视频中目标时序信息和上下文等信息成为提升视频目标检测性能的关键。
ILSVRC2015新增加了视频目标检测任务(Object detection from video, VID),这为研究者提供了良好的数据支持。ILSVRC2015的VID评价指标与图像目标检测评价指标相同——计算检测窗口的mAP。然而对于视频目标检测来说,一个好的检测器不仅要保证在每帧图像上检测准确,还要保证检测结果具有一致性/连续性(即对于一个特定目标,优秀的检测器应持续检测此目标并且不会将其与其他目标混淆)。ILSVRC2016针对这个问题在VID任务上新增加了一个子任务(详见第四部分——视频目标检测时序一致性介绍)。
在ILSVRC2016上,在不使用外部数据的VID两个子任务上,前三名由国内队伍包揽(见表1、表2)。本文主要结合NUIST,CUVideo,MCG-ICT-CAS以及ITLab-Inha四个队伍公布的相关资料对ILSVRC2016中的视频目标检测方法进行了总结。
表1 ILSVRC2016 VID results(无外部数据)
表2 ILSVRC2016 VID tracking result(无外部数据)
通过对参赛队伍的相关报告[2-5]进行学习了解,视频目标检测算法目前主要使用了如下的框架:
- 将视频帧视为独立的图像,利用图像目标检测算法获取检测结果;
- 利用视频的时序信息和上下文信息对检测结果进行修正;
- 基于高质量检测窗口的跟踪轨迹对检测结果进一步进行修正。
本文分为四部分,前三个部分介绍如何提升视频目标检测的精度,最后介绍如何保证视频目标检测的一致性。
单帧图像目标检测
此阶段通常将视频拆分成相互独立的视频帧来处理,通过选取优秀的图像目标检测框架以及各种提高图像检测精度的技巧来获取较为鲁棒的单帧检测结果。《ILSVRC2016目标检测任务回顾(上)–图像目标检测》已对此进行详细总结,这里不再重复。
结合自己实验及各参赛队伍的相关文档,我们认为训练数据的选取以及网络结构的选择对提升目标检测性能有至关重要的作用。
- 训练数据选取
首先对ILSVRC2016 VID训练数据进行分析: VID数据库包含30个类别,训练集共有3862个视频片段,总帧数超过112万。单从数字上看,这么大的数据量训练30个类别的检测器似乎已经足够。然而,同一个视频片段背景单一,相邻多帧的图像差异较小。所以要训练现有目标检测模型,VID训练集存在大量数据冗余