快速检测算法——Object detection at 200 Frames Per Second

最新推荐文章于 2022-06-17 18:30:00 发布

AI之路

最新推荐文章于 2022-06-17 18:30:00 发布

阅读量8.3k

点赞数 8

分类专栏：深度学习计算机视觉目标检测-object detection

本文链接：https://blog.csdn.net/u014380165/article/details/80467007

版权

本文介绍了论文《Object detection at 200 Frames Per Second》中的快速对象检测算法，该算法通过特征融合、网络结构改进、引入network distillation和FM-NMS等技术实现了高效检测。实验结果显示，特征融合、网络变得更深更窄以及使用FM-NMS都能显著提升算法性能和速度。

摘要由CSDN通过智能技术生成

论文：Object detection at 200 Frames Per Second
论文链接：https://arxiv.org/abs/1805.06361

一开始是被这篇文章的名称所吸引，毕竟object detection算法能达到200FPS的确实很少见，读完这篇文章后发现这篇文章确实有很多细节优化非常有意思，值得借鉴，特来分享。主要的优化点包括：特征融合、网络结构改进、引入network distillation、引入FM-NMS等。

首先来看看算法在效果和速度上的整体情况，如Figure1所示，还是比较亮眼的。
这里写图片描述

特征融合（dense feature map with stacking）
特征融合已经是公认的可以提高算法效果的方法（比如SSD和DenseNet都利用了这个思想），因此这篇文章也采用了这个策略。有个细节是在融合过程中，并不是对大size的feature map做max pooling然后与小size的feature map做融合，而是采用将大size的feature map进行resize然后和小size的feature map融合的方式。这种做法其实和YOLO v2中的特征融合（通过passthrough layer实现）很像，看Figure2，首先Figure2中最上面那个箭头表示对104*104*64的feature map用卷积核数量为4，大小为1*1的卷积层进行压缩，得到104*104*4的feature map，然后做resize得到13*13*256的输出。同理第二个箭头表示先将52*52*256的feature map压缩成52*52*16，然后resize成13*13*256。第三个箭头表示先将26*26*256的feature map压缩成26*26*32，然后resize成13*13*128。最后将256+256+128维大小为13*13的feature map和原来的feautre map做concate得到1792维的feature map。

网络更深而且更窄（deep but narrow）
首先，网络越深且越宽一般而言效果也会越好，但同时计算量和参数量也会随之增加，这样就导致算法速度变慢，因此需要做一个平衡。这篇文章的