【机器学习（李宏毅）】四、Gradient Descent

最新推荐文章于 2022-06-15 01:53:28 发布

DetailAI

最新推荐文章于 2022-06-15 01:53:28 发布

阅读量2.3k

点赞数 1

分类专栏：机器学习文章标签：机器学习李宏毅

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/abc8730866/article/details/70332091

版权

机器学习专栏收录该内容

3 篇文章 0 订阅

订阅专栏

课题：Gradient Descent

Review：Gradient Descent

任务是：求解使得损失函数 $L（\theta）$ 最小时的 $\theta$ 参数 $\theta ^{*}$ 。 $L$ 为损失函数； $\theta$ 为模型中的参数。
假设 $\theta$ 有两个变量 ${\theta _{1},\theta _{2}}$
看PPT，能理解 $\theta ^{2}=\theta ^{1}-\eta \bigtriangledown L(\theta ^{1})$ 中的每一项就行。

这里写图片描述

梯度下降的步骤

这里写图片描述

Tip1：Tunning your learning rates

这里写图片描述
对于Learning Rate，左右两个图表达的是一个意思：

对于small的learning tate，Loss会下降很缓慢。
对于large的learning tate，Loss会一开始下降比较快，但会停住，不再下降。
对于very large的learning tate，Loss会爆炸，无法下降。
对于just make的learning tate，Loss会以一个适当的速度下降，且能降到最低点。

这里写图片描述

Adaptive Learning Rates

流行且简单的想法：每几个周期，通过一些因素，减少学习率。

在一开始，离目标地点较远，所以用较大的学习率。
在一些周期之后，我们接近于目标地点，所以我们减少学习率。
例如： $\eta$ 是一个常量，t为第t个周期。 $\eta ^{t}=\eta /\sqrt{t+1}$

学习率不可能 one-size-fits-all：

给不同的参数，不同的学习率

这里写图片描述

Adagrad

对每一个参数的学习率，除以它之前导数的均方差
注意理解公式 $\eta ^{t}$ ， $\eta ^{t}$ 就是第t个周期的学习率
注意理解公式 $g^{t}$ , $g^{t}$ 是损失函数 $L$ 对 $w$ 的偏微分
注意理解公式 $\sigma ^{t}$ ， $\sigma ^{t}$ 是参数 $w$ 之前所有导数的均方差。
总之，理解Adagrad方法对于参数 $w$ 更新公式中的每一项：
$w^{t+1}\leftarrow w^{t}-\frac{\eta ^{t}}{\sigma ^{t}}g^{t}$

这里写图片描述

继续演示Adagrad方法，对于参数 $w$ 的更新步骤:

这里写图片描述

Adagrad方法中，对参数 $w$ 更新公式的简化写法:公式见图

这里写图片描述

Contradiction？

对Adagrad方法中，参数w更新公式矛盾性的讨论。

$g^{t}$ 使得：更大的梯度，更大的步长
XXX（分母项，之前所有倒数的均方差）使得：更大的梯度，更小的步长

这里写图片描述

Intuitive Reason

直觉的解释是：XXXX（分母项，之前所有倒数的均方差）是为了造成反差萌（原话）

这里写图片描述

Larger gradient，large steps？

更大的一次导数意味着离最小值更远（可以从图像看出，不管是第一象限，还是第二象限，离最小值越远的点，导数值越大）

这里写图片描述

Comparsion between different parameters

上一张ppt得出的结论“更大的一次导数意味着离最小值更远”是不能跨参数的。反例如图所示。

这里写图片描述

Second Derivative

二次导数的值即是最佳步长的分母项。
所以最佳步长应该：与一次导数成正比，与二次导数成反比。

这里写图片描述

结合图，解释最佳步长。
在w1方向上，二次微分是比较小的，因为比较平滑
在w2方向上，二次微分比较大，因为比较尖
还是要综合考虑一次微分和二次微分，才能考虑同最低点的距离

这里写图片描述

抛出疑问：Adagrad里面XXXX项，和最佳步长中二次倒数的关系是啥？
Adagrad就是用XXXX去估计二次微分，因为之前所有的一次微分 $g^{i}$ 是必须要算的，不算二次微分可以极大减少计算量。

Tip2：Stochastic Gradient Descent

make the traing faster

这里写图片描述

Stochastic Gradient Descent

注意理解ppt中公式。
梯度下降： $\theta$ 的更新时，损失函数值是所有训练样本的和。
随机梯度下降： $\theta$ 的更新时，损失函数值只是对于某一个样本 $x^{n}$ 。看一个样本，就更新一次参数。

这里写图片描述
对比：

梯度下降：看到所有样本之后，更新参数。
随机梯度下降：看到一个样本，更新一次。如果有20个样本，那就快20倍。

这里写图片描述

Tip3：Feature Scaling

这里写图片描述

如图，让不同的参数有同样的scaling。

这里写图片描述
是否进行Feature Scaling的对比：

做了Feature Scaling之后，参数的更新会比较容易，一直向着圆心走，更有效率。

这里写图片描述
Feature Scaling的方法：

$x_{r}^{i}\leftarrow \frac{x_{r}^{i}-m^{i}}{\sigma ^{i}}$
均值为0，方差为1

这里写图片描述

Gradient Descent Theroy：

这里写图片描述

提问：每次更新参数之后，都会得到更小的损失值吗？
答案是否定的

这里写图片描述

Waring of Math

以下几张ppt，从数学角度（主要是泰勒级数）解释了梯度下降的合理性。

这里写图片描述

这里写图片描述

这里写图片描述

这里写图片描述

这里写图片描述

这里写图片描述

这里写图片描述

这里写图片描述

这里写图片描述

这里写图片描述

More limitation of Gradient Descent

见图，在plateau、saddle point、local minimum处， $w$ 对 $L$ 的偏微分都近似于0，loss下降极慢，都会使人误以为到了loss最小点。

这里写图片描述

关注

1
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

DetailAI CSDN认证博客专家 CSDN认证企业博客

码龄8年

102: 原创

17万+: 周排名

112万+: 总排名

33万+: 访问

: 等级

3974: 积分

502: 粉丝

144: 获赞

55: 评论

319: 收藏

私信

关注

热门文章

分类专栏

最新评论

[Coursera 数字图像和视频处理基础]第一周
JM-Xia: 求后几周的~
发票统计（C程序设计进阶第2周）
spcool_mu: 救命这个可以改成c吗改成c咋写呀
递归习题—角谷猜想（C程序设计进阶第3周）
yrtvchr123456: 159784 159784/2=79892 79892/2=39946 39946/2=19973 19973*3+1=59920 59920/2=29960 29960/2=14980 14980/2=7490 7490/2=3745 3745*3+1=11236 11236/2=5618 5618/2=2809 2809*3+1=8428 8428/2=4214 4214/2=2107 2107*3+1=6322 6322/2=3161 3161*3+1=9484 9484/2=4742 4742/2=2371 2371*3+1=7114 7114/2=3557 3557*3+1=10672 10672/2=5336 5336/2=2668 2668/2=1334 1334/2=667 667*3+1=2002 2002/2=1001 1001*3+1=3004 3004/2=1502 1502/2=751 751*3+1=2254 2254/2=1127 1127*3+1=3382 3382/2=1691 1691*3+1=5074 5074/2=2537 2537*3+1=7612 7612/2=3806 3806/2=1903 1903*3+1=5710 5710/2=2855 2855*3+1=8566 8566/2=4283 4283*3+1=12850 12850/2=6425 6425*3+1=19276 19276/2=9638 9638/2=4819 4819*3+1=14458 14458/2=7229 7229*3+1=21688 21688/2=10844 10844/2=5422 5422/2=2711 2711*3+1=8134 8134/2=4067 4067*3+1=12202 12202/2=6101 6101*3+1=18304 18304/2=9152 9152/2=4576 4576/2=2288 2288/2=1144 1144/2=572 572/2=286 286/2=143 143*3+1=430 430/2=215 215*3+1=646 646/2=323 323*3+1=970 970/2=485 485*3+1=1456 1456/2=728 728/2=364 364/2=182 182/2=91 91*
递归习题—角谷猜想（C程序设计进阶第3周）
yrtvchr123456: 人家是int变量最多32767到-32767不可能到159784
【OpenCV学习笔记】十三、ROI与mask掩码
Angie_wlz: 新手小白不太明白，请问将圆形人脸抠出来的部分怎么做的？

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。