论文链接:https://arxiv.xilesou.top/pdf/1608.08021.pdf
1. Introduction
首先明确本文提出的目的,改进提取特征的网络,加速前馈网络的运行速度。
本文进行目标检测和faster rcnn的两阶段方法流程相同CNN特征提取 + RPN + ROIPooling,本文的重点放在了第一部分:CNN特征提取。作者认为RPN过程并不消耗太多的时间,而分类部分可以结合已有的技术,像是SVD奇异值分解,进行加速。本文设计网络的思想可以总结为采用更少的通道,更多的网络层,设计网络的时候采用了一些构建模块,包括Relu,Inception(google 提出的),hypernet,batchnormal, 此网络运行时间仅是Resnet101的12.3%。
成果:
- 计算成本:7.9GMAC,用于1065x640输入的特征提取(参见ResNet-101 [1]:80.5GMAC1)
- 运行时性能:采用单内核的Intel i7-6700K CPU上的750ms /图像(1.3FPS); NVIDIA Titan X GPU上的46ms /图像(21.7FPS)
- 准确性:VOC-2007上81.8%的mAP; VOC-2012的82.5%mAP(第二名)
2. 网络设计
2.1 C.ReLU
先介绍一下pair filter的定义,参见论文 《Understanding and Improving Convolutional Neural Networks via Concatenated Rectified Linear Units》。一个卷积层有
j
=
1
,
2
,
3
,
.
.
.
,
n
j=1,2,3,...,n
j=1,2,3,...,n个卷积核(filter),一个卷积和
ϕ
i
\phi_i
ϕi对应的pairing filterr定义为
ϕ
p
=
a
r
g
m
i
n
ϕ
i
c
o
s
<
ϕ
i
,
ϕ
j
>
\phi_p = argmin_{\phi_i}cos<\phi_i,\phi_j>
ϕp=argminϕicos<ϕi,ϕj>也就是从所有的卷积核中找出余弦距离最小的那个卷积核。有了这个定义我们看一下下图,对所有卷积核寻找其pair filter,并计算cos相似度得到蓝色的统计直方图。 红色的曲线,是假设随机高斯分布生成的卷积核得到的相似度统计。
网络的前部,参数的分布有更强的负相关性(类似于正负对立)。随着网络变深,这种负相关性逐步减弱。,也就是说在前端网络的filter都是负相关的,假设
f
i
,
f
j
f_i,f_j
fi,fj是负相关的那经过
f
i
f_i
fi卷积计算
o
u
t
i
=
c
o
n
v
(
x
,
f
i
)
,
o
u
t
j
=
c
o
n
v
(
x
,
f
j
)
out_i=conv(x,f_i),out_j=conv(x,f_j)
outi=conv(x,fi),outj=conv(x,fj)我们都知道正常的计算结果是
c
o
n
c
a
t
e
(
[
o
u
t
i
,
o
u
t
j
]
)
concate([out_i,out_j])
concate([outi,outj])而
o
u
t
i
=
−
o
u
t
j
out_i=-out_j
outi=−outj那么问题来了,这里面涉及了冗余计算,我们只计算
o
u
t
i
out_i
outi另
o
u
t
j
=
−
o
u
t
i
out_j=-out_i
outj=−outi就可以了,这样的话节省了一半的参数,并且计算时间也节省很多。
2.2 Inception结构
使用Inception结构两个好处1. 增加感受野 2. 降低参数量。举个例子来说,如果我们有特征图28x28x192,想要用filter为5x5x192x32的filters进行卷积,那么参数量是5519232 = 153600,但是如果我们先用1x1x192x16的卷积核将其变成28x28x16,再用5x5x16x32的卷积核将其变成28x28x32,这个参数量是1119216+5516*32=15872,差了接近十倍。再进一步优化,每个5x5的卷积核可以用两个3x3的卷积核代替,这样的话参数量有减少了很多,这就是整个Inception的核心想法
2.3 多尺度融合
多尺度表示及其融合被证明在许多最近的深度学习任务中是有效的。 将细粒度细节与特征提取层中的高度抽象信息相结合,有助于后面的 RPN(region proposal network) 和分类网络检测不同尺度的对象。
最后一层conv5_4(规模为x)结合conv4_4(规模为2x)、conv3_4(规模为4x),选择中间大小的conv4_4(规模为2x)作为参考规模,对conv3_4(规模为4x)进行下采样,对conv5_4(规模为x)进行线性插值上采样,最后经过1x1x512卷积生成分类器特征图。
3 整个特征提取网络结构
3. 结论
本文结合了C.ReLU,Inception,HyperNet并且采用了batch normal,残差结构,成功的加速了目标检测的过程,并且保持了精度,但是有个问题,本文全是别人的想法,作者并没有提出一个自己的trick,因此来看,本文有水分,并没有新意。