Fast YOLO:用于实时嵌入式目标检测(附论文下载)

关注并星标

从此不迷路

计算机视觉研究院

f94e6c9372e978b34436671db4002d8f.gif

005763bd17da9656824deb31a95d0d96.gif

75bc09f9a5e72a31ce293826ac11f341.png

公众号ID|ComputerVisionGzq

学习群|扫码在主页获取加入方式

3c5f84686ba2d61ed91d8a56d3e9b43c.png

计算机视觉研究院专栏

作者:Edison_G

目标检测被认为是计算机视觉领域中最具挑战性的问题之一,因为它涉及场景中对象分类和对象定位的组合。今天分享这个框架有点陈旧,但精髓!

一、前言

目标检测被认为是计算机视觉领域中最具挑战性的问题之一,因为它涉及场景中对象分类和对象定位的组合。最近,与其他方法相比,深度神经网络 (DNN) 已被证明可以实现卓越的目标检测性能,其中YOLOv2是基于DNN的最先进技术之一。

e9f0c3dbe4ac0299ce1ffa028743c364.png

目标检测方法在速度和准确性方面。尽管YOLOv2可以在强大的GPU上实现实时性能,但在计算能力和内存有限的嵌入式计算设备上利用这种方法进行视频中的实时目标检测仍然非常具有挑战性。

二、概要

在今天分享中,有研究者提出了一个名为Fast YOLO的新框架,这是一个快速的You Only Look Once框架,它可以加速YOLOv2以便能够以实时方式在嵌入式设备上执行视频中的目标检测。

首先,利用进化深度智能框架来进化YOLOv2网络架构,并产生一个优化的架构(这里称为O-YOLOv2),其参数减少了2.8倍IOU下降了约2%。为了在保持性能的同时进一步降低嵌入式设备的功耗,在提出的Fast YOLO框架中引入了一种运动自适应推理方法,以降低基于时间运动特性的O-YOLOv2深度推理的频率。实验结果表明,与原始YOLOv2相比,所提出的Fast YOLO框架可以将深度推理的数量平均减少38.13%视频中目标检测的平均加速约为3.3倍,导致Fast YOLO运行在Nvidia Jetson TX1嵌入式系统上平均约为18FPS。

三、新框架

a74eff47dc72c4c6634e1625805df366.png

提出的Fast YOLO框架分为两个主要部分:i)优化的YOLOv2架构,以及ii运动自适应推理(见上图)。对于每个视频帧,由带有参考帧的视频帧组成的图像堆栈被传递到1×1卷积层。卷积层的结果是一个运动概率图,然后将其送入运动自适应推理模块以确定是否需要深度推理来计算更新的类概率图。正如介绍中提到的,主要目标是引入一个视频中的目标检测框架,该框架可以在嵌入式设备上更快地执行,同时减少资源使用,从而显着降低功耗。通过利用这种运动自适应推理方法,深度推理的频率大大降低,并且仅在必要时执行。

7ebb3c9168d992b5b3697e1a6bffcd27.png

深度神经网络的主要挑战之一,尤其是在将它们用于嵌入式场景时,是网络架构设计。设计过程通常由人类专家执行,他探索大量网络配置,以在建模精度和参数数量方面为特定任务找到最佳架构。寻找优化的网络架构目前通常作为超参数优化问题来解决,但这种解决问题的方法非常耗时,而且大多数方法对于大型网络架构来说要么在计算上难以处理,要么导致次优解决方案不够嵌入式使用。

fc52d240363f946d8cbc49427b0b5ce3.png

例如,超参数优化的一种常用方法是网格搜索,其中检查大量不同的网络配置,然后选择最佳配置作为最终的网络架构。然而,为视频中的目标检测而设计的深度神经网络(如YOLOv2)具有大量参数,因此在计算上难以搜索整个参数空间以找到最佳解决方案。

7eec35dcd1bb3d19a502ec53192488bc.png

因此,研究者没有利用超参数优化方法来获得基于YOLOv2的最佳网络架构,而是利用专为提高网络效率而设计的网络优化策略。特别是,研究者利用进化深度智能框架来优化网络架构,以合成满足嵌入式设备内存和计算能力限制的深度神经网络。

f1600d9737fedd1af19a67a49c430949.png

为了进一步降低处理器单元的功耗,用于视频中的嵌入式目标检测,研究者利用了这样一个事实,即并非所有捕获的视频帧都包含唯一信息,因此不需要对所有帧进行深度推理。因此,研究者引入了一种运动自适应推理方法来确定特定视频帧是否需要深度推理。通过在必要时使用前面介绍的O-YOLOv2网络进行深度推理,这种运动自适应推理技术可以帮助框架减少对计算资源的需求,从而显着降低功耗系统以及处理速度的提高。

四、实验

原始YOLOv2网络架构与优化后的YOLOv2之间的架构和性能比较

3510c93e0e49e2e4a8b85e24e7824ab9.png

提出的Fast YOLO、O-YOLOv2和原始YOLOv2在Nvidia Jetson TX1嵌入式系统上运行的平均运行时性能和深度推理频率。

0a9c3f4870bd7025c54f51f8e3a2a575.png

© THE END 

转载请联系本公众号获得授权

bb15a53b7f78b0d2d170d1f970113f15.gif

计算机视觉研究院学习群等你加入!

计算机视觉研究院主要涉及深度学习领域,主要致力于人脸检测、人脸识别,多目标检测、目标跟踪、图像分割等研究方向。研究院接下来会不断分享最新的论文算法新框架,我们这次改革不同点就是,我们要着重”研究“。之后我们会针对相应领域分享实践过程,让大家真正体会摆脱理论的真实场景,培养爱动手编程爱动脑思考的习惯!

edfeec8216ea26b4d2a7bcd2877ba63d.png

扫码关注

计算机视觉研究院

公众号ID|ComputerVisionGzq

学习群|扫码在主页获取加入方式

 往期推荐 

🔗

  • 0
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

计算机视觉研究院

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值