Looking Fast and Slow: Memory-Guided Mobile Video Object Detection
1.简介
- 目的:计算机视觉系统中使用内存是否可以提高移动设备视频流中目标检测的准确性,以及是否可以减少计算时间。
- 方法:
- Slow network负责提取视频帧的精确特征,速度较慢,Fast network负责快速提取视频帧的特征提取,准确率较差,两者交替处理视频帧图像。
- 强化学习算法学习自适应推断机制。
- 结果:在Imagenet VID 2015数据集上,达到了移动检测方法的最佳,运行速度高达70+FPS。
2.相关
-
研究目的:神经网络是否同样能够使用内存辅助使得执行视频对象检测时减少计算量。
-
关键问题一:相邻帧趋向于相似,在多个帧上运行一个特征提取器可能会导致大部分冗余计算。
- 初步Idea:保存以前的计算特征记忆,并且只从新帧中提取少量必要的特征。最少的计算量,依赖记忆模式。
- 初步设计:因为相邻帧存在冗余计算,所以设计了两个特征提取器:
- 一个精准的提取器用于初始化和保存特征记忆
- 一个粗略的提取器用于快速提取图像的大致特征
-
Point:在不同帧上,两个提取器有不同的速度和识别能力。使用一个公共记忆模块(convLSTM)对它们的输出进行融合。
-
新的关键问题二:以上机制有必要知道记忆何时需要被更新(选择关键帧)。
- Idea:强化学习问题,在运行特征提取器时,学习一种交替策略。利用记忆模块的信息构建自适应学习策略。
- Idea:强化学习问题,在运行特征提取器时,学习一种交替策略。利用记忆模块的信息构建自适应学习策略。
3.方法
-
交替模型组成:
- 2个特征提取器:f0慢速提取器基于MobileNetV2(320320),f1快速提取器基于MobileNetV2(160160)。(两个模型的depth multiplier不同,前者为1.4,后者为0.35)
- 公共记忆模型
- 生成框模型:SSD-style detector,anchors比率限制为{1.0,0.5,2.0}。
- 超参n:即交替比例,f1(快速)运行后运行f0(慢速)n次。
-
记忆模型:
- 作用:时间维度上聚合两个特征提取器的特征,尤其的慢速提取器的记忆特征。
- 为了提高速度,论文的ConvLSTM有三点改进:
- 采用了Bottleneck 并且将其输出和output跳跃连接。
- LSTM单元分组卷积。特征图HxWxN分为G组,每个LSTM仅处理HxWxN/G的特征,加速ConvLSTM计算。论文中G = 4。
- LSTM有一固有弱点,sigmoid激活输入和忘记门很少完全饱和,导致缓慢的状态衰减,长期依赖逐渐丧失,更新中无法保留完整的前期状态。导致Fast network运行中,Slownetwork特征缓慢消失。论文提出在快速网络运行时跳过更新状态,即上一时刻慢速网络运行输出特征重复使用。
-
训练过程:
- 不启用检测层的情况下,对交替模型进行预训练。+softmax;每帧复制三次使用三个LSTM,特征器随机选择训练这三帧。(?)
- 之后,加上SSD检测器。将LSTM展开到六个步骤,并在每个步骤中均匀地选择一个随机的特征提取器。
- 对于图像数据,我们通过在每一步裁剪一个特定的区域,并在每一步之间移动裁剪来模拟平移和缩放,以帮助模型学习运动和盒子位移之间的关系。
-
自适应交替策略:
- 提出了一种利用强化学习学习自适应交叉策略的新方法,用来优化交替策略。
- 策略网络π检查LSTM状态并决定输出哪个特征提取器。
- 使用Double Q-learning方法训练π。
- 动作空间:m个动作,动作a对应下个时间运行的提取器fa。
- 状态空间:s
- 奖励函数:R 速度奖励和准确度奖励的总和。
-
推理优化:
- 提高帧率
4.实验
- 数据集: imagenet VID 2015
- 30个目标类
- 训练数据:使用了VID训练数据、Imagenet DET相关类数据和COCO训练数据。
- 3862个视频
- 14万7千张图片from DET
- 4万3千张图片from COCO
- 验证数据:
- 555个视频from VID
- 结果:
- 与单帧检测、LSTM-based方法、其他方法。
- 与单帧检测、LSTM-based方法、其他方法。
论文创新点:
1、提出基于存储引导的交替模型框架,使用两个特征提取网络分别提取不同帧特征,减少计算冗余。
2、提出基于Q-learning学习自适应交替策略,取得速度和准确率的平衡。
3、在手机设备实现迄今为止已知视频目标检测的最高速度。