ccc-Gradient Descent-李宏毅(2)

最新推荐文章于 2024-08-13 10:09:13 发布

扔出去的回旋镖

最新推荐文章于 2024-08-13 10:09:13 发布

阅读量216

点赞数

分类专栏：深度学习-李宏毅文章标签：人工智能算法

本文链接：https://blog.csdn.net/liubi32326/article/details/128943170

版权

深度学习-李宏毅专栏收录该内容

8 篇文章 0 订阅

订阅专栏

文章详细介绍了梯度下降法在优化过程中的注意事项，包括调整学习率的重要性，提出了Adagrad自适应学习率算法，解释了如何通过平方根二次微分的估计提高效率。此外，文章还讨论了随机梯度下降法如何加速训练以及特征缩放对迭代次数的影响。同时，指出了梯度下降法可能遇到的全局最小值、鞍点和平台期问题，提示了设定更新阈值的潜在风险。

摘要由CSDN通过智能技术生成

上一篇的（链接）step3中寻找最优化函数时简单提到了Gradient Descent，本次讲解它的几个注意事项，以及更深入的探讨

文章目录

1.Tuning your learning rates

当参数为3个以下的时候，不同learning rate可能导致的损失函数如下
在这里插入图片描述
不过对于更多的参数，总是可以观测到这样的现象

调整Learning Rates的建议

最开始的几轮epochs，离目标很远可以使用较大的学习率
几轮epochs后，可以减小学习率使其细化
针对不同参数的学习率往往也不同
使用Adagrad技巧，详情如下：

对于一个参数w，使用Vanilla Gradient descent（原始的）更新如下：
$w^{t+1}\leftarrow w^t-\eta^tg^t$

使用Adagrad更新如下：
$w^{t+1}\leftarrow w^t-\frac{\eta^t}{\sigma^t}g^t$
其中， $\eta^t$ 一般选择 $\frac{\eta}{\sqrt{t+1}}$ , $\sigma^t$ 表示参数w之前偏导数（ $g^i$ ）的均方根，所以可以化简：
$w^{t+1}\leftarrow w^t-\frac{\frac{\eta}{\sqrt {t+1}}}{\sqrt{\frac{1}{t+1}\sum_{i=0}^{t}(g^i)^2}}g^t\\ =w^t-\frac{\eta}{\sqrt{\sum_{i=0}^{t}(g^i)^2}}g^t$

这样做的好处是什么：
在这里插入图片描述对于二次函数而言，最佳的间隔应该是 $\frac{|一次微分|}{二次微分}$ ，所以让分子估算成二次微分可以提高效率。对于多个求得一次微分的点来说， $\sqrt{\sum_{i=0}^{t}(g^i)^2}$ 确实可以作为二次微分趋势的一个估计，而且不会增大计算量，效果图如下：
在这里插入图片描述

2.Stochastic Gradient Descent

这个可以加速模型的训练过程，它将之前每次迭代使用每个样本改为每次迭代只使用一个样本，但多次更新，效果对比如下：
可以看到，虽然不是每次都离终点更近，但多次更新确实加快了进程，公式如下：
$L^n=(\hat y^n-(b+\sum w_ix_i^n))$

3.Feature Scaling

将不同特征缩放至差不多的范围，减少迭代次数，直观影响如下：
在这里插入图片描述
常见缩放方式如下：
$x_i^r\leftarrow\frac{x_i^r-m_i}{\sigma_i}$
其中， $m_i$ 表示维度i的平均值， $\sigma _i$ 表示维度i的标准差，这样缩放对于每个维度i使最后均值为0，方差为1

Gradient Descent：Theory

对于如下的损失函数，如何判断 $\theta_0$ 在某个范围的最佳的下个更新点？
在这里插入图片描述
其实这个问题非常简单，利用泰勒公式即可。但这个红圈范围足够小时，可以近似认为红圈内有：
$L(\theta)=L(a,b)+\frac{\partial L(a,b)}{\partial \theta_1}(\theta_1-a)+\frac{\partial L(a,b)}{\partial \theta_2}(\theta_2-b)$
此时就是最小化上面这个函数，可以将（ $\frac{\partial L(a,b)}{\partial \theta_1}$ ， $\frac{\partial L(a,b)}{\partial \theta_2}$ ）看做是一个向量（u,v），（ $\theta_1-a$ , $\theta_2-b$ ）看做求解向量。要想让其最小，相反方向拉满即可，直观图如下：
在这里插入图片描述
$\theta_1$ , $\theta_2$ 表示如下：
$\left [ \begin{matrix} \theta_1 \\ \theta_2 \\ \end{matrix} \right ]=\left [ \begin{matrix} a \\ b \\ \end{matrix} \right ]-\eta\left [ \begin{matrix} u \\ v \\ \end{matrix} \right ]=\left [ \begin{matrix} a \\ b \\ \end{matrix} \right ]-\eta\left [ \begin{matrix} \frac{\partial L(a,b)}{\partial \theta_1} \\ \frac{\partial L(a,b)}{\partial \theta_2} \\ \end{matrix} \right ]$

More Limitation of Gradient Descent

在这里插入图片描述
迭代除了可能找不到global minima 点外，还可能停止在saddle point（鞍点，某个方向稳定）和 plateau（变化微小）处。导致后面两个的原因就是一般只是设定一个很小的阈值，当更新变化后很小就停止。这是值得注意的问题！

扔出去的回旋镖

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
ccc-Gradient Descent-李宏毅(2)

Tuning your learning rates、Stochastic Gradient Descent、Feature Scaling、Gradient Descent：Theory、More Limitation of Gradient Descent
复制链接

扫一扫

专栏目录