收录于CVPR2016
1.Contribution
本文主要关注目标检测过程中的上下文信息以及多尺度信息两个方面,提出了Inside-Outside Net:
Inside Net: 采用skiping pooling的方式连接不同卷积层输出的feature map,实现多尺度特征的融合
Outside Net: 采用IRNN的结构,整合contextual infomation
Performance: 80.1% on VOC2007/ 77.9% on VOC2012/ 33.1% on COCO
2.网络的基本结构
采用的是Fast RCNN的基本框架,通过SS和EB提取Proposal,对于每一个ROI,提取conv3/conv4/conv5对应的特征,fix到固定的长度;然后将conv5输出的feature map输入到两个IRNN单元提取上下文信息,同样,在输出的context feature map上提取ROI对应的特征,fix到固定长度。然后将multi-scale特征和context特征先normalize/scale,然后concate到一起。通过1*1卷积进行降维。输出到分类器去进行cls和reg.
2.1.Multi-scale Pooling
multi-scale pooling主要需要考虑几个问题:
1.选择哪几个conv层的特征进行融合
2.如何在融合之前进行正则化
3.融合之后的尺度因子要怎么选择(scale)
实验结果如