4. Method
4.1 Limited Scale Range
用dilated conv扩大C5的feature的感受野(惊了,不是因为C5的resolution太小所以才提的FPN吗?) 把得到的feature跟原来的feature相加,这样就能cover所有的scale了。
Dilated Encoder:
先用跟FPN一样的1x1 conv + 3x3 conv。After that, we stack four successive dilated residual blocks with different dilation rates in the 3 x 3 convolution layers to generate output features with multiple receptive fields, covering all objects’ scales. (我觉得这里的dilation rates应该是相同的,因为是stack)
Discussion
DetNet用空洞卷积是为了保留分辨率,而我们是为了多重感受野。(这话真是骗骗不懂的人。人家要解决的分辨率问题难道在他这就不存在吗?核心问题:C5的feature到底能不能检测小目标?要么这是一篇调参的工作,要么它比较的是调参的工作。这篇跟DetNet在结构上的区别就是:1它resolution更小了一半,2多层特征变一层。水水水!)