目标检测系列:PVANET

论文链接:https://arxiv.xilesou.top/pdf/1608.08021.pdf

1. Introduction

首先明确本文提出的目的,改进提取特征的网络,加速前馈网络的运行速度。
本文进行目标检测和faster rcnn的两阶段方法流程相同CNN特征提取 + RPN + ROIPooling,本文的重点放在了第一部分:CNN特征提取。作者认为RPN过程并不消耗太多的时间,而分类部分可以结合已有的技术,像是SVD奇异值分解,进行加速。本文设计网络的思想可以总结为采用更少的通道,更多的网络层,设计网络的时候采用了一些构建模块,包括Relu,Inception(google 提出的),hypernet,batchnormal, 此网络运行时间仅是Resnet101的12.3%。
成果:

  1. 计算成本:7.9GMAC,用于1065x640输入的特征提取(参见ResNet-101 [1]:80.5GMAC1)
  2. 运行时性能:采用单内核的Intel i7-6700K CPU上的750ms /图像(1.3FPS); NVIDIA Titan X GPU上的46ms /图像(21.7FPS)
  3. 准确性:VOC-2007上81.8%的mAP; VOC-2012的82.5%mAP(第二名)

2. 网络设计

2.1 C.ReLU

crelu
先介绍一下pair filter的定义,参见论文 《Understanding and Improving Convolutional Neural Networks via Concatenated Rectified Linear Units》。一个卷积层有 j = 1 , 2 , 3 , . . . , n j=1,2,3,...,n j=1,2,3,...,n个卷积核(filter),一个卷积和 ϕ i \phi_i ϕi对应的pairing filterr定义为 ϕ p = a r g m i n ϕ i c o s < ϕ i , ϕ j > \phi_p = argmin_{\phi_i}cos<\phi_i,\phi_j> ϕp=argminϕicos<ϕi,ϕj>也就是从所有的卷积核中找出余弦距离最小的那个卷积核。有了这个定义我们看一下下图,对所有卷积核寻找其pair filter,并计算cos相似度得到蓝色的统计直方图。 红色的曲线,是假设随机高斯分布生成的卷积核得到的相似度统计。
在这里插入图片描述
网络的前部,参数的分布有更强的负相关性(类似于正负对立)。随着网络变深,这种负相关性逐步减弱。也就是说在前端网络的filter都是负相关的,假设 f i , f j f_i,f_j fi,fj是负相关的那经过 f i f_i fi卷积计算 o u t i = c o n v ( x , f i ) , o u t j = c o n v ( x , f j ) out_i=conv(x,f_i),out_j=conv(x,f_j) outi=conv(x,fi),outj=conv(x,fj)我们都知道正常的计算结果是 c o n c a t e ( [ o u t i , o u t j ] ) concate([out_i,out_j]) concate([outi,outj]) o u t i = − o u t j out_i=-out_j outi=outj那么问题来了,这里面涉及了冗余计算,我们只计算 o u t i out_i outi o u t j = − o u t i out_j=-out_i outj=outi就可以了,这样的话节省了一半的参数,并且计算时间也节省很多。

2.2 Inception结构

使用Inception结构两个好处1. 增加感受野 2. 降低参数量。举个例子来说,如果我们有特征图28x28x192,想要用filter为5x5x192x32的filters进行卷积,那么参数量是5519232 = 153600,但是如果我们先用1x1x192x16的卷积核将其变成28x28x16,再用5x5x16x32的卷积核将其变成28x28x32,这个参数量是1119216+5516*32=15872,差了接近十倍。再进一步优化,每个5x5的卷积核可以用两个3x3的卷积核代替,这样的话参数量有减少了很多,这就是整个Inception的核心想法
在这里插入图片描述

2.3 多尺度融合

多尺度表示及其融合被证明在许多最近的深度学习任务中是有效的。 将细粒度细节与特征提取层中的高度抽象信息相结合,有助于后面的 RPN(region proposal network) 和分类网络检测不同尺度的对象。
最后一层conv5_4(规模为x)结合conv4_4(规模为2x)、conv3_4(规模为4x),选择中间大小的conv4_4(规模为2x)作为参考规模,对conv3_4(规模为4x)进行下采样,对conv5_4(规模为x)进行线性插值上采样,最后经过1x1x512卷积生成分类器特征图。
在这里插入图片描述

3 整个特征提取网络结构

在这里插入图片描述

3. 结论

本文结合了C.ReLU,Inception,HyperNet并且采用了batch normal,残差结构,成功的加速了目标检测的过程,并且保持了精度,但是有个问题,本文全是别人的想法,作者并没有提出一个自己的trick,因此来看,本文有水分,并没有新意。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值