【R-FCN】Object Detection via Region-based Fully convolutional Networks && light-head RCNN

本文介绍了R-FCN如何通过Region-based Fully convolutional Networks解决目标检测中的速度与精度问题,以及Light-Head R-CNN在此基础上的优化,实现了更快更准确的目标检测。R-FCN利用Position-sensitive Score Maps,而Light-Head R-CNN采用Large-Kernel Separable Convolution减少计算量,提高了检测效率。
摘要由CSDN通过智能技术生成

一、R-FCN

 

1、概述

本文作者Jifeng Dai,Yi Li,Kaiming He,Jian Sun。本文主要是在特征的通道维度上分块后,每一块取空间上某一部分组合成新的feature map来解决分类需空间不变性和检测任务需空间敏感性的矛盾。

R-FCN是在faster RCNN基础上来改进的,主要是针对了fast/faster rcnn的在rpn中提取出的候选区都需要进行subnetwork【即会对每一个选出来的候选区都放到头部(faster rcnn中的fast rcnn网络部分)跑一遍】,这样会导致检测速度慢,速度慢就是因为ROI层后面的结构对不同的proposal是不共享的。本文就提出方法来想办法将ROI后面的结构往前挪。提出了position-sensitive score maps来处理图像分类时的translation-invariance和目标识别时的translation-variance。

2、网络结构

  • 原本对于faster-rcnn-Resnet-101,Resnet-101有5个阶段,将第四阶段conv4_x的输出feature map作为RPN阶段的输入,用来提取出proposal regions,且使用第五阶段conv5_x网络部分作为分类和回归的子网络。
  • 对于R-FCN来说,是不将conv5_x作为子网络,因此,在conv4_x的feature map直接经过conv5_x。具体子网络结构如下图所示。
  • 在conv5_x之后,输出的feature map维度为2048即w*k*2048】。R-FCN使用1*1卷积将其变为w*h*1024。
    • 对于rfcn_cls和rfcn_bbox:使用1*1卷积输出k*k*(class_num+background_1)维的score map【即w*h*(k*k*(c+1))】。最后经过positionsensitive ROI pooling(psroipooling)输出。如图中例:有20类别,加上背景为21,期待roi输出规格为k=7,那么rfcn_cls输出维度为7*7*(c&
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值