Towards High Performance Video Object Detection for Mobiles

最新推荐文章于 2020-09-15 11:27:02 发布

weixin_30340353

最新推荐文章于 2020-09-15 11:27:02 发布

阅读量155

收藏 1

点赞数

原文链接：http://www.cnblogs.com/hf19950918/p/10669462.html

版权

motivation：

　　近来以桌面版GPU为计算平台的视频目标检测取得了较多成果，如DFF,FGFA等，但这些算法没法用在移动端，移动端的计算资源有限不足以运行这些算法。

本文提出了一个用于移动端的轻量化视频目标检测网络。在稀疏关键帧上运行轻量化的图片目标检测器，使用了一个非常小的轻光流网络来提取光流场。

同时文章还提出了一个GRU模型来在关键帧上进行高效的特征聚合。在非关键帧上进行稀疏特征传播。整个网络可以被端到端地训练，在imagenet VID上达到了60.2的mAP，

在华为Mate8上达到了25.6的fps。

介绍：文章提出了一个轻量化的网络结果用于视频目标检测，该算法基于两个原则，一个是在非关键帧上进行特征传播，另一个是在关键帧之间进行特征聚合，同Towards High Performance Video Object Detection。

但是考虑到速度、模型大小、准确率，算法中用到的网络结构都需要重新设计。对所有帧，利用一个非常小的可以在移动端运行的Light Flow网络来估计光流。对稀疏关键帧，作者提出了一个flow-guided gated recurrent unit来进行特征聚合。

此外，文章还使用了一个轻型图片目标检测器来在关键帧上计算特征。

Light Flow：

基于FlowNet重新设计的轻型光流估计网络。损失了15%的精度换来65倍的提速。具体结构设计可参见文章3.1.

Flow-guided GRU based feature aggregation：

特征聚合无疑对提高精度是非常重要的，FGFA中的融合方法是线性的没有记忆能力，递归特征融合虽然有了进步，但是难以训练去建模更长的帧间信息，部分原因是递归网络中的梯度消失和梯度爆炸。GRU在建模较长时间信息方面优于LSTM和RNN，因为在网络状态更新中考虑了非线性性。受这一点启发，本文在特征聚合中引入了卷积GRU用作特征集成，而不是仅仅进行加权平均。

在这里星号表示3x3卷积，圈表示点乘.

Lightweight key-frame object detector:

检测器的backbone使用了MobileNet，任务网络采用RPN和Light Head RCNN。

转载于:https://www.cnblogs.com/hf19950918/p/10669462.html

weixin_30340353

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Towards High Performance Video Object Detection for Mobiles

motivation：　　近来以桌面版GPU为计算平台的视频目标检测取得了较多成果，如DFF,FGFA等，但这些算法没法用在移动端，移动端的计算资源有限不足以运行这些算法。本文提出了一个用于移动端的轻量化视频目标检测网络。在稀疏关键帧上运行轻量化的图片目标检测器，使用了一个非常小的轻光流网络来提取光流场。同时文章还提出了一个GRU模型来在关键帧上进行高效的特征聚合。在非关键帧...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。

余额充值