RFB-Net——准确快速的物体检测
_思路
1. 突破点
提高实时算法的精准度。
2. 优化的问题
实时算法特征表达能力不强,或者说特征提取器因为不能太深,所以效果不好。
3. 为什么会得以优化
根据人类视觉系统的接受域(感受野?),提出RFB。
4. 依然存在的问题
pass
5. 为什么会存在这些问题
pass
摘要
- 目前顶级目标检测算法,得益于DCNN backbones很强的特征表示能力,却又很很高的计算开销。
- 有些算法能实时,但是准确率太低。
- 本文使用手工机制加强轻量级特征,构建了一个快速准确的检测器。
- 受到人类视觉系统的接受域(RF)的启发,我们提出了接受域块(RFB)模块,他把接受域的大小和离心率考虑在内,来加强特征的描述和稳定性。
1 引言
- 依据"人类的pRF的大小在视网膜代表图上是一个离心率的函数"。(并不懂)
- inception中使用不同分辨率的结构,有点这个意思,但是Inception中每个不同大小的核中在同样的中心采样。
- Atrous Spatial Pyramid Pooling(ASPP)来捕获不同尺度的信息,在语义分析中有用,但是
这些特征与之前相同的核大小的卷积层的分辨率一致,与雏菊的形状相比的得到的特征不明显。 - Deformable CNN试图根据物体的尺度和形状,自适应调整RFs的空间分布。虽然简单的格子很灵活,但是没有考虑RFs的离心率的印象,每个像素的权重是相等的,没有强调最重要的信息。
- RFB使用多分支汇聚层(multi-branch pooling),使用不同的kernel大小来应对感受野的不同。
- 应用扩大的卷积层控制RF的离心率,最后产生特征表达。
- RFB模块很通用。接到MobileNet上也很成功。
3 方法
3.1 再探视觉皮层
pass
3.2 RFB
- RFB是一个多分支卷积块。
- 前面部分与Inception相同,负责模拟多种尺寸的pRF,后一部分再现了人类视觉系统中pRF尺寸与偏心的关系。
Multi-branch convolution layer: astrous convolution layer.
Dilated pooling or convolution layer: