深度学习图像分类（二）——VGG论文理解

最新推荐文章于 2024-07-21 13:26:35 发布

holmes_MX

最新推荐文章于 2024-07-21 13:26:35 发布

阅读量5.2k

点赞数 2

分类专栏：深度学习——classification paper reading

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/holmes_MX/article/details/82977883

版权

本文详细介绍了VGG网络结构的设计思路，包括为何选用小卷积核，网络配置以及训练时的参数设置、图像增广和模型融合等关键点。在ILSVRC实验中，深度增加有助于提升性能，而多尺度训练和测试能够捕获更多图像信息，提高分类准确性。

摘要由CSDN通过智能技术生成

0. 写作目的

好记性不如烂笔头。这里只是笔者记录的过程，如果读者有时间的话，建议看英文论文。

1. 网络结构

1.1 为什么采用更小的卷积

主要思想是：将卷积核换成卷积核较小的。

例如： 5 * 5 的卷积的视野与 2个 3 * 3 的卷积视野相同。7 * 7 的卷积视野与 3 个 3 * 3 的卷积视野相同。

以1层 7 * 7的卷积换成 3层3 * 3的卷积为例进行说明：

i) 使用3层非线性来代替1层非线性，使得决策函数更具有可分性（原文）。

可以这样理解：增加了网络的非线性程度。

ii) 可以减少参数的量

如：假设输入和输出feature map 的channel 都是C,

则采用7 * 7的参数为： 7 * 7 * C * C = 49C*C

采用 3 个 3 * 3的参数为 （3 * 3 * C * C） * 3 = 27C*C

1.2 网络配置

VGG认为在AlextNet中的LRN 对降低test error 没有什么用处，而且会增加内存消耗和运行时间，因此去除LRN。

卷积时采用的是保持分辨率不变的卷积。激活函数是：ReLU.

下图中Net-D 和Net-E分别是我们平时所说的VGG16 和VGG19.

通过Net-A 和 Net-A-LRN对比，发现LRN不能降低test error，因此其他网络均未采用LRN。

在两个4096全连接层后加上Dropout( 0.5 ).

2. 训练时的细节

2.1 训练参数的设置

SGD wit

最低0.47元/天解锁文章

关注

2
点赞
踩
14

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。