PVANet学习总结

最新推荐文章于 2020-10-22 09:44:26 发布

aift

最新推荐文章于 2020-10-22 09:44:26 发布

阅读量734

点赞数 1

分类专栏：深度学习（DL）计算机视觉（CV）

本文链接：https://blog.csdn.net/ft_sunshine/article/details/98994256

版权

深度学习（DL）同时被 2 个专栏收录

37 篇文章 40 订阅

订阅专栏

计算机视觉（CV）

19 篇文章 7 订阅

订阅专栏

文章目录

简介

PVANet: Deep but Lightweight Neural Networks for Real-time Object Detection——是RCNN系列目标方向，其基于Faster-RCNN进行了改进。这是一种轻量级的网络。

这篇文章的出发点是改进Faster CNN的特征提取网络，也就是用PVANet来提取特征作为Faster RCNN网络中RPN部分和RoI Pooling部分的输入，改进以后的Faster RCNN可以在基本不影响准确率的前提下减少运行时间。我们知道加宽和加深网络向来是提升网络效果的两个主要方式，因为要提速，所以肯定做不到同时加宽和加深网络，因此PVANET网络的总体设计原则是：less channels with more layers，深层网络的训练问题可以通过residual结构来解决。另外因为PVANet结构的设计不涉及网络量化等加速操作，所以如果要进一步加速的话可以再使用加速算法。总体来说PVANET网络主要有以下三个创新点：

使用C.ReLU；
使用Inception structure；
使用HyperNet多尺度思想；

网络结构

PVANet的网络结构如下所示：
在这里插入图片描述
从PVANet架构图上看到，类似于Faster RCNN的思想，使用RPN训练Region proposals，在ROI基础上进行score和bounding box。输入RPN的feature maps只有128个，作者没有给出原因（为了快？？但这操作的合理性依据是什么？？留坑），不过这个操作有效降低了冗余图像信息。

C.ReLU

C.ReLU的作者观察基础网络卷积层参数（如AlexNet），发现低层卷积核成对出现(参数互为相反数)，因此，作者减小输出特征图个数为原始一半，另一半直接取相反数得到，再将两部分特征图连接，从而减少了卷积核数目，有效降低了参数量和计算量。（这种操作太迷了，参考资料）

另解：C.ReLU的设计思路来源于对CNN中的activation patterns的观察。笔者直观理解，现实生活中很多object的边缘成对出现，比如人的双眼的对角（< >）,桌子的直角等。所以在CNN前几层，对3x3卷积核翻转180°（其实是取负数，这里要明白对卷积核取反和对卷积操作之后的特征图取反，效果是一样的），有效降低卷积核个数，从而提高两倍速。

论文解释：In the early stage, output nodes tend to be “paired” such that one node’s activation is the opposite。

与原始的C.ReLU相比，论文在concatenation之后增加scaling and Bias（缩放和偏移）。这相当于一个线性变换，改变原来完全对称的数据分布。（这允许每个channel filter的斜率及激活阈值和与其相反的channel filter不同。）

论文解释：Compared to the original C.ReLU, we append scaling and shifting after concatenation to allow that each channel’s slope and activation threshold can be different from those of its opposite channel.

在这里插入图片描述

Inception structure

Inception structure很容易理解，GoogLeNet 的V1~V4大名鼎鼎。作者认为使用Inception structure（带shortcut connection）可以同时捕获大目标和小目标。为了捕获图像中的大目标，需要足够大的感受野，这个可以通过堆叠3x3的滤波器来达到。但是为了捕获小目标，则需要小一点的感受野，1x1的卷积核正好合适。可以避免大卷积核造成的参数冗余问题。
在这里插入图片描述