一、前言
现在所学内容为进阶课程的任务一,也就是李宏毅这本书的第三章,本次任务可以更加进一步的接触到深度学习的相关内容,更充分的学习到相关知识。
二、相关内容
1.临界点
梯度为0的点。
2.局部极小值/局部极大值
梯度为0,梯度下降收敛在局部值点。
3.鞍点
梯度是零且区别于局部极小值和局部极大值。
4.判断临界值的方法
判断临界值点需要知道损失函数,但是如果给定某一组参数,比如 θ ′,在 θ ′ 附近的损失函数是有办 法写出来的——虽然 L(θ) 完整的样子写不出来。θ ′ 附近的 L(θ) 可近似为:
在临界点,梯度g为0,所以第二项为,L(θ) 为:
为了符号简洁,我们用向量 v 来表示 θ − θ ′,(θ-θ ′)TH(θ-θ ′)改写为vTHV
(
1
)如果对所有
v
,
v
T
Hv
>
0
.
这意味着对任意
θ
,
L
(
θ
)
> L
(
θ
′
)
.
只要
θ
在
θ
′
附近,
L
(
θ
)
都大于
L
(
θ
′
)
.
这代表
L
(
θ
′
)
是附近的一个最低点,所以它是局部极小值。
(
2
)如果对所有
v
,
v
T
Hv
<
0
.
这意味着对任意
θ
,
L
(
θ
)
< L
(
θ
′
)
,
θ
′
是附近最高的一
个点,
L
(
θ
′
)
是局部极大值。
(
3
)如果对于
v
,
v
T
Hv
有时候大于零,有时候小于零。这意味着在
θ
′
附近,有时候
L
(
θ
)
> L
(
θ
′
)
,有时候
L
(
θ
)
< L
(
θ
′
)
.
因此在
θ
′
附近,
L
(
θ
′
)
既不是局部极大值,也不是局部
极小值,而是鞍点。
5.批量
就是在计算梯度的时候,不是对所有数据的损失计算梯度,而是把所有的数据分成一个一个的批量,每个批量的大小是B,即带有B笔数据,每次在更新参数的时候,会用B笔数据来计算损失和梯度。
6.动量
是另外一个可以对抗鞍点或局部最小值的方法,假如误差表面是一个真正的斜坡,参数是一个球,把球从斜坡上滚下来,如果使用梯度下降,那么球走到局部最小值或鞍点就停下了,但是在物理的世界里,一个球从高处滚下来,就算滚到鞍点或者局部极值点,因为惯性的关系还会继续往前走,如果动量足够大,那么会继续往前走,这就是动量。
三、感悟
学完这次的课程内容感觉非常的充实,比入门版更加的深入,相对来说难了一些,但认真学也比较好理解,对一些难的地方课后还需要多多思考,观看视频加深理解。