深度学习图像分类(二)——VGG论文理解

本文详细介绍了VGG网络结构的设计思路,包括为何选用小卷积核,网络配置以及训练时的参数设置、图像增广和模型融合等关键点。在ILSVRC实验中,深度增加有助于提升性能,而多尺度训练和测试能够捕获更多图像信息,提高分类准确性。
摘要由CSDN通过智能技术生成

0. 写作目的

好记性不如烂笔头。这里只是笔者记录的过程,如果读者有时间的话,建议看英文论文。

1. 网络结构

1.1 为什么采用更小的卷积

主要思想是:将卷积核换成卷积核较小的。

例如: 5 * 5 的卷积的视野与 2个 3 * 3 的卷积视野相同。7 * 7 的卷积视野与 3 个 3 * 3 的卷积视野相同。

以1层 7 * 7的卷积换成 3层3 * 3的卷积为例进行说明:

i) 使用3层非线性来代替1层非线性,使得决策函数更具有可分性(原文)

    可以这样理解:增加了网络的非线性程度。

ii) 可以减少参数的量

如: 假设 输入和输出feature map 的channel 都是C,

则采用7 * 7的参数为:  7 * 7 * C * C = 49C*C

采用 3 个 3 * 3的参数为 (3 * 3 * C * C) * 3 = 27C*C

1.2 网络配置

VGG认为在AlextNet中的LRN 对降低test error 没有什么用处,而且会增加内存消耗和运行时间,因此去除LRN。

卷积时采用的是保持分辨率不变的卷积。激活函数是:ReLU.

下图中Net-D 和Net-E分别是我们平时所说的VGG16 和VGG19.

通过Net-A 和 Net-A-LRN对比,发现LRN不能降低test error,因此其他网络均未采用LRN。

在两个4096全连接层后加上Dropout( 0.5 ).

2. 训练时的细节

2.1 训练参数的设置

SGD wit

  • 2
    点赞
  • 14
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值