VGGNet论文总结思考

最新推荐文章于 2022-11-16 19:20:42 发布

Evabook

最新推荐文章于 2022-11-16 19:20:42 发布

阅读量615

点赞数

分类专栏：深度学习论文

本文链接：https://blog.csdn.net/Evabook/article/details/87872718

版权

7 篇文章 1 订阅

订阅专栏

论文简述

本文探究了在大规模图像识别任务中，卷积网络深度对模型准确度的影响。使用带有非常小（3×3）卷积滤波器的体系结构对深度增加的网络进行全面评估。

VGGNet网络结构

通用布局
通用布局起到控制变量，各卷积层使用相同的原理设计，如卷积核大小，通道数，全连接层和softmax层等。每个隐层后均采用ReLU实现非线性。
3×3 滤波器
能够捕捉到上下左右概念的最小尺寸。
两个3×3的卷积等同于5×5的卷积的感受野。采用3×3卷积核的优势：
- 采用两次ReLu的非线性操作，提升判别函数的识别能力。
- 减少参数数量
1×1滤波器
不改变卷积层的感受野的同时，增强判别函数的非线性（本身是线性映射，但ReLU函数赋予了额外的非线性）

同理，有测试尺寸Q，Q不需要等于S，也可以采用尺寸抖动。
对于固定S，取Q={S-32,S,S+32}；对于变量S，取Q={Smin,0.5*(Smin+Smax),Smax}。
密集评估(dense evaluation)
将全连接层转换为卷积层，形成全卷积网络，并应用于整个测试图片上（不进行裁剪）。最终生成一个类分数映射，通道数等于类数，空间分辨率可变，取决于输入图像的大小。为获取固定尺寸的类分数，将类分数映射在空间上求平均。
多裁剪评估（multi-crop evaluation）
方式同训练过程，两种评估方式的主要区别在于不同的卷积边界条件：对于裁剪后的图像，卷积时特征图用0进行填充，而对于密集估计，可以认为特征图的填充是来自于图像的周边部分，从而增加网络的感受野。
两者在一定程度上互补。