DataWhale 夏令营第五期 深度学习详解 TASK 3

3.7 批量归一化

如果在error surface表面很崎岖的情况下,模型是很难训练的。批量归一化(Batch Normalization, BN)就是一个把山铲平的想法。假设两个参数对损失的斜率非常大,在 w1这个方向上面,斜率变化很小,在w2这个方向上面斜率变化很大。

如果是固定的学习率,可能很难得到好的结果,所以我们才需要自适应的学习率。

特征归一化其实可以可以浓缩为一句话:让训练过程变得容易一点。

Z值归一化,也称标准化,通过计算同一个维度中的平均值和标准差,即可完成一种归一化。

归一化有个好处,做完归一化以后,这个维度上面的数值就会平均是 0,其方差是 1,所以这一排数值的分布就都会在 0 上下;对每一个维度都做一样的归一化,所有特征不同维度的数值都在 0 上下,可能就可以制造一个比较好的误差表面。所以像这样子的特征归一化方式往往对训练有帮助,它可以让在做梯度下降的时候,损失收敛更快一点,训练更顺利一点。

3.7.1 考虑深度学习

x˜ 代表归一化的特征,把它丢到深度网络里面,去做接下来的计算和训练。如图 3.41 所示,x˜1 通过第一层得到 z1,有可能通过激活函数,不管是选 sigmoid 或者 ReLU 都可以,再得到 a1,接着再通过下一层等等。对每个 x 都做类似的事情。虽然 x˜ 已经做归一化了,但是通过 W1 W1 以后,没有做归一化。如果 x˜ 通过 W1 W1 得到 z1,而 z1 不同的维度间,它的数值的分布仍然有很大的差异,训练 W2 W2 第二层的参数也会有困难。对于 W2W2,a 或 z 其实也是一种特征,也应该要对这些特征做归一化。如果选择 sigmoid,比较推荐对 z 做特征归一化,因为 sigmoid 是一个 s 的形状,其在 0 附近斜率比较大,如果对 z 做特征归一化,把所有的值都挪到 0 附近,到时候算梯度的时候,算出来的值会比较大。如果使用别的激活函数,可能对 a 归一化也会有好的结果。一般而言,特征归一化,要放在激活函数之前,之后都是可以的,在实现上,没有太大的差别。

第四章 卷积神经网络

我们从卷积神经网络开始,探讨网络的架构设计。卷积神经网络是一种非常典型的网络架构,常用于图像分类等任务。通过卷积神经网络,我们可以知道网络架构如何设计,以及为什么合理的网络架构可以优化网络的表现。所谓图像分类,就是给机器一张图像,由机器去判断这张图像里面有什么样的东西——是猫还是狗、是飞机还是汽车。怎么把图像当做模型的输入呢?对于机器,图像可以描述为三维张量(张量可以想成维度大于 2 的矩阵)。一张图像是一个三维的张量,其中一维代表图像的宽,另外一维代表图像的高,还有一维代表图像的通道(channel)的数目。

一般在做图像识别的时候,可能不会觉得有些模式只出现在某一个通道里面,所以会看全部的通道。既然会看全部的通道,那么在描述一个感受野的时候,只要讲它的高跟宽,不用讲它的深度,因为它的深度就等于通道数,而高跟宽合起来叫做核大小。图 4.8 中的核大小就是 3 × 3。在图像识别里面,一般核大小不会设太大,3 × 3 的核大小就足够了,7 × 7、9 × 9算是蛮大的核大小。如果核大小都是 3 × 3,意味着我们觉得在做图像识别的时候,重要的模式都只在 3 × 3 这么小的范围内就可以被检测出来了。但有些模式也许很大,也许 3 × 3 的范围没办法检测出来,后面我们会再回答这个问题。常见的感受野设定方式就是核大小为 3 × 3

4.5 简化1和2的总结

而感受野加上参数共享就是卷积层(convolutional layer),用到卷积层的网络就叫卷积神经网络。卷积神经网络的偏差比较大。但模型偏差大不一定是坏事,因为当模型偏差大,模型的灵活性较低时,比较不容易过拟合。全连接层可以做各式各样的事情,它可以有各式各样的变化,但它可能没有办法在任何特定的任务上做好。而卷积层是专门为图像设计的,感受野、参数共享都是为图像设计的。虽然卷积神经网络模型偏差很大,但用在图像上不是问题。如果把它用在图像之外的任务,就要仔细想想这些任务有没有图像用的特性。

卷积层是可以叠很多层的,如图 4.22 所示,第 2 层的卷积里面也有一堆的滤波器,每个滤波器的大小设成 3 × 3。其高度必须设为 64,因为滤波器的高度就是它要处理的图像的通道。如果输入的图像是黑白的,通道是 1,滤波器的高度就是 1。如果输入的图像是彩色的,通道为 3,滤波器的高度就是 3。对于第 2 个卷积层,它的输入也是一张图像,这个图像的通道是 64。这个 64 是前一个卷积层的滤波器数目,前一个卷积层的滤波器数目是 64,输出以后就是 64 个通道。所以如果第 2 层想要把这个图像当做输入,滤波器的高度必须是 64。所以第 2 层也有一组滤波器,只是这组滤波器的高度是 64。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值