机器学习（李宏毅）—— Gradient Descent

wueeuw

已于 2022-03-14 23:09:07 修改

阅读量1.3k

点赞数

分类专栏：机器学习（李宏毅）文章标签：机器学习深度学习人工智能

于 2022-03-13 16:43:51 首次发布

本文链接：https://blog.csdn.net/mooc1212/article/details/123454654

版权

机器学习（李宏毅）专栏收录该内容

5 篇文章 0 订阅

订阅专栏

使用梯度下降法时要谨慎的调整学习率： $\theta ^{i}=\theta ^{i-1}-\eta\cdot \triangledown L(\theta ^{i-1})$ , $\eta$ 是学习率。在调整学习率后要把不同学习率的Parameter-Loss曲线画出来，以便调整学习率参数(学习率太大收敛到一定程度时Loss还很大,学习率太小时收敛速度慢)。
Feature Scaling：每一个参数的scaling要尽可能相匹配(对于多个参数情况,scaling匹配时不同参数的学习率迭代过程相近且迭代过程沿着目标方向进行)。如何进行Feature Scaling？数据标准化方法(处理后的数据均值为0,方差为1)。
为什么梯度下降的方向迭代是这样的？ $\theta ^{i}=\theta ^{i-1}-\eta\cdot \triangledown L(\theta ^{i-1})$
当 $x$ 趋近于 $x_{0}$ 时，由泰勒级数可知 $h(x)\approx h(x_{0})+h^{'}(x_{0})(x-x_{0})$ ；当 $x,y$ 趋近于 $x_{0},y_{0}$ 时，由泰勒级数可知 $h(x,y)\approx h(x_{0},y_{0})+\frac{\partial h(x_{0},y_{0})}{\partial x}(x-x_{0})+\frac{\partial h(x_{0},y_{0})}{\partial y}(y-y_{0})$ 。
当损失函数在某一个小邻域圆内，有 $L(\theta_{1},\theta_{2})\approx L(a,b)+\frac{\partial L(a,b)}{\partial \theta _{1}}(\theta _{1}-a)+\frac{\partial L(a,b)}{\partial \theta _{2}}(\theta _{2}-b)$ 。
令 $s=L(a,b)$ ， $u=\frac{\partial L(a,b)}{\partial \theta_{1}}$ ， $v=\frac{\partial L(a,b)}{\partial \theta_{2}}$ ，有 $L(\theta _{1},\theta _{2})\approx s+u(\theta _{1}-a)+v(\theta _{2}-b)$ ，在 $(\theta _{1}-a)^{2}+(\theta _{2}-b)^{2}\leq d^{2}$ 约束条件下使得 $L(\theta _{1},\theta _{2})$ 最小。
令 $\Delta \theta _{1}=\theta _{1}-a$ ， $\Delta \theta _{2}=\theta _{2}-b$ ，则有 $\begin{bmatrix} \Delta \theta _{1}\\ \Delta \theta _{2} \end{bmatrix}=-\eta\begin{bmatrix} u\\ v \end{bmatrix}\Rightarrow \begin{bmatrix}\theta _{1}\\\theta _{2} \end{bmatrix}=\begin{bmatrix} a\\ b \end{bmatrix}-\eta\begin{bmatrix} u\\ v \end{bmatrix}$ ，即 $\begin{bmatrix}\theta _{1}\\\theta _{2} \end{bmatrix}=\begin{bmatrix} a\\ b \end{bmatrix}-\eta\begin{bmatrix} \frac{\partial L(a,b)}{\partial \theta _{1}}\\ \frac{\partial L(a,b)}{\partial \theta _{2}}\end{bmatrix}$ 时 $L(\theta _{1},\theta _{2})$ 最小，这就是梯度下降法方向迭代的公式，只有 $\eta$ 尽可能地小（受d限制）才能满足泰勒级数展开的要求，故在设置学习率的值时不能过于大。

Adaptive Learning Rates：在开始时离目标很远，设置较大的学习率；在经过几个epoch后离目标很近，需要设置较小的学习率(学习率随着epoch的增加呈现出衰减的趋势,例如设置学习率为 $\eta ^{t}=\frac{\eta }{\sqrt{t+1}}$ , $\eta$ 是最初始学习率)，对不同的参数要设置不同的学习率。
Adagrad：
$w^{t+1}\leftarrow w^{t}-\frac{\eta ^{t}}{\sigma ^{t}}\cdot g^{t}$ ， $\eta ^{t}=\frac{\eta }{\sqrt{t+1}}$ ， $g^{t}=\frac{\partial L(\theta ^{t})}{\partial w}$ ， $\sigma ^{t}=\sqrt{\frac{1}{t+1}\sum_{i=0}^{t}(g^{i})^{2}}$ ， $L=\sum_{n}^{}(\hat{y}^{n}-(b+\sum w_{i}x_{i}^{n}))^{2}$
$\sigma ^{t}$ 是微分值 $g^{t}(t=0,1,...,t-1,t)$ 的均方根(先取平方和的平均值再开根号)。将上式化简可得 $w^{t+1}\leftarrow w^{t}-\frac{\eta}{\sqrt{\sum_{i=0}^{t}(g^{i})^{2}}}\cdot g^{t}$ ， $\eta$ 是最初设置的学习率。Adagrad强调迭代过程梯度大小反差的效果(步长最好为 $\frac{|First\, \, derivative|}{Second\, \, derivative}$ )。

Stochastic Gradient Descent：随机选取一个样本 $x^{n}$ ，其损失函数为 $L^{n}=(\hat{y}^{n}-(b+\sum w_{i}x_{}^{n}))^{2}$ 。SGD收敛速度与Gradient Descent相比更快一些(SGD每一个样本都进行一次迭代,而Gradient Descent每次迭代需要一系列数据导致其收敛速度较慢)。

wueeuw

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
机器学习（李宏毅）—— Gradient Descent

谨慎的调整学习率：，其中是学习率。在调整学习率时要把不同学习率的Parameter-Loss曲线画出来，以便观察如何调整学习率参数（学习率太大收敛到一定程度时Loss还很大，学习率太小时收敛速度慢）。Adaptive Learning Rates：在开始时离目标很远，设置较大的学习率；在经过几个epoch后离目标很近，需要设置较小的学习率（学习率随着epoch的增加呈现出衰减的趋势，例如，是最初设置的学习率）。对于不同的参数设置不同的学习率。Adagrad：，，，，是...
复制链接

扫一扫