Light-Head R-CNN 简介

最新推荐文章于 2023-01-14 23:05:59 发布

qq_16540387

最新推荐文章于 2023-01-14 23:05:59 发布

阅读量357

点赞数

分类专栏：深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_16540387/article/details/81902641

版权

深度学习专栏收录该内容

29 篇文章 1 订阅

订阅专栏

一背景

一般而言，两阶段检测器在速度上有优势，在速度上相比于单阶段检测器会稍慢一点，所以，Light-Head R-CNN的设计初衷是两阶段的物体检测器也可以做的更快，而且在精度上尽可能的提高。

二对比分析

这里写图片描述

Faster R-CNN 和R-FCN在小模型上不够快的原因。

Faster R-CNN 用两个厚重的fc（或者resnet 的第5个stage）做proposal的预测，
R-FCN则通过制造了一个 (类别数x7x7)channel的大score map。

除去basemodel的那部分，两个方法都引入了比较大的计算量。

基于前面的观察，需要针对性的解决问题。里面最重要的点，就是把pooling的feature map变得特别薄。因为Head那一部分，复杂度有两个因素决定：pool的feature map的厚度（减少R-FCN的score map）。以及对pool出来的feature进行分类和回归的那一部分（减少Faster R-CNN）。

三主要改进

3.1pooling的feature map变薄

针对这个问题，在R-FCN上做了一次实验。尝试把R-FCN的pooling的feature map压到10×P×P，相当于把原来3900多个channel，压到了490个channel。然后发现掉的点几乎没有。并且在VOC上做过一系列的实验，压成10×P×P是根本不会掉点的。在COCO上面只会掉零点几，再把它压得更多一点，压成5×P×P也只是掉零点几。

3.1增加一层廉价的全连接

feature map被压薄了之后，是没办法直接Average voting出来最后的结果的。但是可以通过在后面加一个到81类的全连接层来出最后的结果。
这里写图片描述

四结论

这里写图片描述

前面的baseline已经达到了37.7，然后把pooling做一个alignment，大概能涨1.3个点；我们在训练的时候用的是0.3的NMS，换成0.5之后，能涨0.5左右；然后加multiscale train也能涨一个点。也就是最后的40.8的结果。尝试了加入feature pyramid，大概是41.5。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。