梯度下降的优化方法

最新推荐文章于 2024-08-20 15:10:09 发布

ShadyPi

最新推荐文章于 2024-08-20 15:10:09 发布

阅读量815

点赞数 1

分类专栏：机器学习文章标签：机器学习

本文链接：https://blog.csdn.net/ShadyPi/article/details/122549535

版权

机器学习专栏收录该内容

29 篇文章 9 订阅

订阅专栏

文章目录

特征缩放（归一化）
学习率调整
非直线拟合

特征缩放（归一化）

对于一个线性回归式子
$y=\theta_0+\theta_1x_1+\theta_2x_2+\cdots+\theta_nx_n$
若某两个特征值 $x_i,x_j$ 之间取值范围相差悬殊，比如 $x_i\in[0,2000]$ 而 $x_j\in[-0.5,0.5]$ ，那么相应的 $\theta_i$ 的范围就会远小于 $\theta_j$ ，在轮廓图中呈现出两个维度比例失衡的情况。

在这种情况下，运行梯度下降算法时会让我们的求解过程十分漫长，求解点会在范围较大的那个维度向着最低点艰难跋涉，伴随着范围较小的维度的不断震荡，使得求解效率低下。

为了优化这个问题，我们就对特征值进行预处理，设特征值 $x_i$ 的平均值为 $\mu$ ，范围为 $[a, b]$ ，则定义一个新的特征值 $x_i'=\frac{x_i-\mu}{b-a}$ ，使得新特征值的取值范围基本落在 $[- 1, 1]$ 范围内，这样各维度的比例就会更加均匀，提升求解效率。

图片来自吴恩达机器学习
在这里插入图片描述

学习率调整

很显然，学习率太小，收敛速度会很慢，而学习率太大有可能根本收敛不了。

在实际运行梯度下降算法时，我们主要观察迭代次数-代价函数曲线，通过代价函数值随迭代次数的变化来判断我们选择的学习率是否合理。也可以设定一个阈值 $\varepsilon$ ，当一次迭代后代价函数值的变化小于 $\varepsilon$ 时认为已经收敛，但在实际运用中 $\varepsilon$ 很难确定。

当不确定到底该选多少学习率时，可以先 $1,0.1,0.01,\cdots$ 这样试验，再根据经验做出调整。