论文:HyperNet: Towards Accurate Region Proposal Generation and Joint Object Detection
来源:CVPR 2016
1. Motivation
- Faster R-CNN的RPN对所设置的anchors(~2400个)进行二分类和粗回顾,消除了大量的背景类,但仍然给出了很多粗糙的候选区域,这会影响Fast R-CNN head 的检测速度。
- 作者将此问题归因于backbone提取的特征不够好,所以提出新的特征——Hyper Feature,Hyper Feature对多尺度特征进行融合(融合了全局信息和局部信息),这也是这篇论文最大的创新点。
2. HyperNet
2.1 流程图
- takes an input image
- computes Hyper Feature representation
- genrates 100 proposals
- classifies and makes adjustment for each region.
2.2 网络结构
2.3 Hyper Feature extraction
- 将不同分辨率的特征层转换成相同的分辨率
- 采用max pooling将Conv1和Conv2的特征图下采样至Conv3特征图大小
- 采用deconvolution将Conv4和Conv5的特征图上采样至Conv3特征图大小
- Conv3特征图保持不变
- 使用同一个大小为 5 × 5 5\times5 5×5卷积层进行特征融合,得到hyper feature maps。