Towards High Performance Video Object Detection for Mobiles

motivation:

  近来以桌面版GPU为计算平台的视频目标检测取得了较多成果,如DFF,FGFA等,但这些算法没法用在移动端,移动端的计算资源有限不足以运行这些算法。

本文提出了一个用于移动端的轻量化视频目标检测网络。在稀疏关键帧上运行轻量化的图片目标检测器,使用了一个非常小的轻光流网络来提取光流场。

同时文章还提出了一个GRU模型来在关键帧上进行高效的特征聚合。在非关键帧上进行稀疏特征传播。整个网络可以被端到端地训练,在imagenet VID上达到了60.2的mAP,

在华为Mate8上达到了25.6的fps。

 

介绍:文章提出了一个轻量化的网络结果用于视频目标检测,该算法基于两个原则,一个是在非关键帧上进行特征传播,另一个是在关键帧之间进行特征聚合,同Towards High Performance Video Object Detection。

但是考虑到速度、模型大小、准确率,算法中用到的网络结构都需要重新设计。对所有帧,利用一个非常小的可以在移动端运行的Light Flow网络来估计光流。对稀疏关键帧,作者提出了一个flow-guided gated recurrent unit来进行特征聚合。

此外,文章还使用了一个轻型图片目标检测器来在关键帧上计算特征。

 

Light Flow:

基于FlowNet重新设计的轻型光流估计网络。损失了15%的精度换来65倍的提速。具体结构设计可参见文章3.1.

 

Flow-guided GRU based feature aggregation:

特征聚合无疑对提高精度是非常重要的,FGFA中的融合方法是线性的没有记忆能力,递归特征融合虽然有了进步,但是难以训练去建模更长的帧间信息,部分原因是递归网络中的梯度消失和梯度爆炸。GRU在建模较长时间信息方面优于LSTM和RNN,因为在网络状态更新中考虑了非线性性。受这一点启发,本文在特征聚合中引入了卷积GRU用作特征集成,而不是仅仅进行加权平均。

在这里星号表示3x3卷积,圈表示点乘.

 

Lightweight key-frame object detector:

检测器的backbone使用了MobileNet,任务网络采用RPN和Light Head RCNN。

 

转载于:https://www.cnblogs.com/hf19950918/p/10669462.html

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值