cs231n:Lecture 6: CNN Architectures

bacth normalization

“你想要零均值和单位方差的激活吗?只需使它们如此。”[Ioffe 和 Szegedy,2015]
考虑某一层的一批激活。为了使每个维度具有零均值和单位方差,应用:

问题:如果零均值、单位方差的限制太过严格怎么办?

在测试期间,Batch Normalization 变成了一个线性操作! 可以与前一个全连接或卷积层融合。

- 使深度网络更容易训练!
- 改善梯度流动
- 允许更高的学习率,更快的收敛
- 网络对初始化更加鲁棒
- 在训练期间充当正则化项
- 在测试时零额外开销:可以与卷积融合!
- 在训练和测试期间的行为不同:这是一个非常常见的 bug 源!

为什么使用3x3卷积核?

        三个 3x3 的卷积层(步幅为 1)堆叠具有与一个 7x7 的卷积层相同的有效感受野。

问题:为什么使用较小的滤波器?(3x3 卷积) 问题:三个 3x3 卷积层(步幅为 1)的有效感受野是多少?

问题1回答:使用较小的滤波器(例如3x3卷积)有几个好处。首先,它们具有更少的参数,因此计算成本较低。其次,它们引入了更多的非线性,从而使网络能够学习更复杂的特征。此外,它们可以更好地捕捉局部特征,有助于提高模型的感知能力。

问题2回答:三个3x3的卷积层(步幅为1)的有效感受野与一个7x7的卷积层相同。这是因为通过堆叠多个3x3的卷积层,网络可以学习更复杂的特征,而这些特征在整体上等效于一个较大滤波器的感受野。这种方式的堆叠提供了更强大的表达能力,同时保持了计算效率。


谷歌网络的特点,使用1x1的卷积核减少了大量要训练的参数


事实:深度模型具有比更浅模型更强的表示能力(更多参数)。
假设:问题是一个优化问题,深度模型更难优化。
为了使深度模型至少与更浅模型一样好,深度模型应该学到什么?
一种构造性的解决方案是从更浅模型中复制已学习的层,并将额外的层设置为恒等映射。


完整的 ResNet 架构:
- 堆叠残差块
- 每个残差块包含两个 \(3 \times 3\) 的卷积层
- 周期性地,将过滤器的数量加倍,并使用步幅2在空间上进行降采样(在每个维度上除以2)
- 在开始处有额外的卷积层(称为 stem)
- 在最后没有全连接层(仅有一个连接到输出类别数的全连接层,通常是 1000 个类别)
- (理论上,可以训练一个具有可变尺寸输入图像的 ResNet)


senet:添加一个“特征重校准”模块,该模块学习自适应地重新加权特征图:
- 全局信息(全局平均池化层)+ 2 个全连接层用于确定特征图的权重
- ILSVRC'17(ImageNet Large Scale Visual Recognition Challenge 2017)分类获胜者(使用 ResNeXt-152 作为基础架构)

AlexNet表明可以使用卷积神经网络训练计算机视觉模型。
ZFNet、VGG表明更大的网络效果更好。
GoogLeNet是最早关注使用1x1瓶颈卷积和全局平均池化代替全连接层的网络之一。
ResNet向我们展示了如何训练极深的网络:
- 仅受限于GPU和内存!
- 随着网络变得更大,递减的回报逐渐显现
ResNet之后:卷积神经网络超过了人类度量标准,注意力转向了高效网络:
- 大量针对移动设备的小型网络:MobileNet、ShuffleNet
神经结构搜索现在可以自动化网络架构设计。

AI and efficiency各种网络

迁移学习: 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值