PVANet学习总结

简介

PVANet: Deep but Lightweight Neural Networks for Real-time Object Detection——是RCNN系列目标方向,其基于Faster-RCNN进行了改进。这是一种轻量级的网络。

这篇文章的出发点是改进Faster CNN的特征提取网络,也就是用PVANet来提取特征作为Faster RCNN网络中RPN部分和RoI Pooling部分的输入,改进以后的Faster RCNN可以在基本不影响准确率的前提下减少运行时间。我们知道加宽加深网络向来是提升网络效果的两个主要方式,因为要提速,所以肯定做不到同时加宽和加深网络,因此PVANET网络的总体设计原则是:less channels with more layers,深层网络的训练问题可以通过residual结构来解决。另外因为PVANet结构的设计不涉及网络量化等加速操作,所以如果要进一步加速的话可以再使用加速算法。总体来说PVANET网络主要有以下三个创新点

  1. 使用C.ReLU
  2. 使用Inception structure
  3. 使用HyperNet多尺度思想;

网络结构

PVANet的网络结构如下所示:
在这里插入图片描述
从PVANet架构图上看到,类似于Faster RCNN的思想,使用RPN训练Region proposals,在ROI基础上进行score和bounding box。输入RPN的feature maps只有128个,作者没有给出原因(为了快??但这操作的合理性依据是什么??留坑),不过这个操作有效降低了冗余图像信息。

C.ReLU

C.ReLU的作者观察基础网络卷积层参数(如AlexNet),发现低层卷积核成对出现(参数互为相反数),因此,作者减小输出特征图个数为原始一半,另一半直接取相反数得到,再将两部分特征图连接,从而减少了卷积核数目,有效降低了参数量和计算量。(这种操作太迷了,参考资料

另解:C.ReLU的设计思路来源于对CNN中的activation patterns的观察。笔者直观理解,现实生活中很多object的边缘成对出现,比如人的双眼的对角(< >),桌子的直角等。所以在CNN前几层,对3x3卷积核翻转180°(其实是取负数,这里要明白对卷积核取反对卷积操作之后的特征图取反,效果是一样的),有效降低卷积核个数,从而提高两倍速。

论文解释:In the early stage, output nodes tend to be “paired” such that one node’s activation is the opposite。

与原始的C.ReLU相比,论文在concatenation之后增加scaling and Bias(缩放和偏移)。这相当于一个线性变换,改变原来完全对称的数据分布。(这允许每个channel filter的斜率及激活阈值和与其相反的channel filter不同。)

论文解释:Compared to the original C.ReLU, we append scaling and shifting after concatenation to allow that each channel’s slope and activation threshold can be different from those of its opposite channel.

在这里插入图片描述

Inception structure

Inception structure很容易理解,GoogLeNet 的V1~V4大名鼎鼎。作者认为使用Inception structure(带shortcut connection)可以同时捕获大目标和小目标。为了捕获图像中的大目标,需要足够大的感受野,这个可以通过堆叠3x3的滤波器来达到。但是为了捕获小目标,则需要小一点的感受野,1x1的卷积核正好合适。可以避免大卷积核造成的参数冗余问题。
在这里插入图片描述

HyperNet

论文使用了HyperNet多尺度表示思想,综合精细信息及高度抽象信息,用于检测不同尺度的物体。使用了中间层直接输出,第一层做max pooling,最后一层做Deconv,使特征输出shape一致。
在这里插入图片描述

实验过程

除了以上基础网络的区别:

  1. PVAnet使用的anchor与faster-rcnn不同,PVA在每个特征点上使用了25个anchor(5种尺度,5种形状);
  2. 并且RPN网络不使用全部特征图就能达到很好的定位精度,RPN网络只用生成200个proposals;
  3. 使用VOC2007、VOC2012、COCO一起训练模型;
  4. 可以使用类似于Fast-RCNN的truncated SVD来加速全连接层的速度;
  5. 使用投票机制增加训练精度,投票机制应该参考于R-FCN;

References

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值