李宏毅机器学习-神经网络设计(2021版)

本文探讨了局部最小值、鞍点的识别,批次与动量对优化效果的影响,自动学习率调整策略,如RMSprop和Adam,以及回归分类方法(如交叉熵)的应用。同时,剖析了批次标准化的原理及其有效性,以及不同优化工具在深度学习中的实践。
摘要由CSDN通过智能技术生成

1.局部最小值和鞍点

在这里插入图片描述
local minima:局部最小值
saddle point:鞍点
它们统称为critical point(临界点)。

如何知道是哪个?

在这里插入图片描述

举例

在这里插入图片描述
在这里插入图片描述
这是saddle point。
saddle point比local minima更加常见。

2.批次(Batch)与动量(Momentum)

在这里插入图片描述
在这里插入图片描述
左边没有用batch,右边是使用了batch的。左边的更新所要花的时间更长,结果更加稳定;右边花费的时间短,但是有噪声。
在这里插入图片描述
在这里插入图片描述
小的batch size 有更好的表现,大的batch size优化失败。

为何会出现这个状况?

在这里插入图片描述
在这里插入图片描述
小的batch更容易在一个宽的地方停下来,大的batch更容易在窄的地方停下来,因此大的batch更容易出现坏的结果。

对比结果

在这里插入图片描述

动量+梯度下降

在这里插入图片描述
下一步走的方向取决于gradient的方向和之前的方向。

3.自动调整学习速率(learning rate)

在这里插入图片描述
当没有临界点时训练会十分难,我们希望当梯度很小的时候,learning rate能够调大一点。

在这里插入图片描述
在这里插入图片描述

RMSprop

在这里插入图片描述
在这里插入图片描述

Adam

在这里插入图片描述

如何解决震荡的问题?

在这里插入图片描述
learning rate dacy 随着时间不断进行,参数不断更新,把learning rate减小。

warm up

learning rate先变大,后变小。
在这里插入图片描述

优化总结

在这里插入图片描述

4.classification as regression(回归分类)

在这里插入图片描述
soft-max的计算方法,让结果在0和1之间。
在这里插入图片描述

计算损失函数

在这里插入图片描述
mean square error:均方误差
cross-entropy:交叉熵
在这里插入图片描述

为什么cross-entropy更好?

在这里插入图片描述
在左上角时,loss都非常大,但是mean square非常的平缓,gradient太小。

5.批次标准化(batch normalization)

在这里插入图片描述
不同的维度对
same range 接近的范围

feature normalization

在这里插入图片描述
在每个维度i,求得平均数 mi,标准差在这里插入图片描述
the means of all dims are 0,and the variances are all 1。
在这里插入图片描述
在这里插入图片描述
再次对z做批次化处理,步骤与上相同。参数彼此相关,应该把整个看成一个large network。

testing 阶段

moving average:流动平均数
在这里插入图片描述

为什么batch mormalization是有效的?

在这里插入图片描述
internal covariate shift可能并不是最主要的问题
在这里插入图片描述
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Cifeng79

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值