ECCV18
还是做检测中尺度变化问题。
(a)是faster rcnn的做法;
(b)是FPN的做法, 这个结构要小心设计, 同时计算成本上升,影响速度;
(c)是SSD的做法, 底层没有利用到高层的语义信息, 对小物体检测能力有限;
(d)是本文方法, 左边是DenseNet生成的一系列特征图, DenseNet每一层生成的特征分辨率相同, 利用池化层处理得到小分辨率图, 同时具有大的感受野, 用于检测大物体; 用scale-transfer 层来得到高分辨率的特征图, 用于检测小物体。
这里我的两点理解:
1. 最高层的特征图利用了DenseNet的结构, 是连接了前面Low-level的特征的,用concat方式合成了现在的特征, 也就是说, 高层特征是融合了low-level的信息的, 否则纯粹依靠semantic信息是难以检测小物体的。
2. scale-transfer得到高分辨率的过程:
这个就是在super resolution里的PixelsShuffle。把channel信息平铺到spatial维度上。
优点: 这个scale-transfer模块没有啥参数, 不影响速度。
小结: 这个shuffle的使用很有意思, 让我想到了CVPR19 做pose estimation的一篇文章, 也是把resnet前向过程中不同分辨率的特征做shuffle, 当然和这个使用方法不同, 但是这种特征做shuffle的想法还挺有趣的。