（四）梯度下降算法实践技巧

Dopang

已于 2023-03-14 17:14:53 修改

阅读量135

点赞数

分类专栏：吴恩达机器学习专项课程文章标签：算法机器学习人工智能

于 2023-03-11 01:38:29 首次发布

本文链接：https://blog.csdn.net/dyk2013/article/details/129427867

版权

吴恩达机器学习专项课程专栏收录该内容

4 篇文章 0 订阅

订阅专栏

文章目录

特征缩放（Feature Scaling）
- - 特征量纲差异的影响
  - 特征缩放的方法
判断梯度下降算法是否收敛（Convergence）
如何设置学习率（Learning Rate）

特征缩放（Feature Scaling）

特征量纲差异的影响

举例（房价数据）：
根据房屋尺寸 $x_{1}(feet^2)$ 的数据范围分别为300～2000，和房间数量 $x_{2}(个)$ 的数据范围分别为0～5，预测房屋价格 $y (p r i ce)$ 。如一条房屋数据为 $x_{1}=2000,x_{2}=5,price = 500k$ 。
较好的线性回归拟合模型为 $p r i ce (500 k) = 0.1 * 2000 + 50 * 5 + 50$ ，这里 $w_{1}=0.1,w_{2}=50$ 。
在这里插入图片描述

下图展示了不同的特征数据范围对应的模型参数范围，数据范围越大对应的参数范围就越小，数据范围越小对应的参数范围就越大。（这也是为什么不进行特征缩放的模型参数无法反映该特征的重要性）。
直观理解：
房屋尺寸由于数据大，所以它比较小的变动就会对结果产生影响，对应参数范围变动就要小；
房间数由于数据小，所以它需要比较大的变动才能对结果产生影响，对应的参数范围变动就要大。
在这里插入图片描述
下图展示了如果不进行特征缩放，梯度下降算法会反复横跳。
原因：特征间的数据差距太大，根据偏导数公式 $\frac{\partial J(\vec{w},b)}{\partial w_{j}}=\frac{1}{m}\sum_{i=1}^{m}({\color{red} f_{\vec{w},b}(\vec{x}^{(i)})} -y^{(i)})x_{j}^{(i)}$ ，当学习率 $\alpha$ 确定时，数据范围 $x_{j}$ 大的特征对应参数 $w_{j}$ 更新幅度就大，导致整体方向会偏向更新幅度大的偏导数方向，并不是指向最小值的方向，所以会反复横跳，导致收敛速度会慢。当进行特征缩放时，各个特征量纲一致，计算的偏导数方向基本比较稳定（始终指向最小值），就能比较快的到达最优点。
在这里插入图片描述

特征缩放的方法

最大值标准化
如： $300\le x_{1}\le2000, 0\le x_{2}\le5$
则： $x_{1,scaled}=\frac{x_{1}}{2000},x_{2,scaled}=\frac{x_{2}}{5}$
得： $0.15\le x_{1,scaled}\le1,0\le x_{2,scaled}\le1$
均值标准化
如： $300\le x_{1}\le2000,\mu_1=600；0\le x_{2}\le5,\mu_2=2.3$
则： $x_{1,scaled}=\frac{x_{1}-\mu_{1}}{2000-300},x_{2,scaled}=\frac{x_{2}-\mu_{2}}{5-0}$
得： $-0.18\le x_{1,scaled}\le0.82,-0.46\le x_{2,scaled}\le0.54$
Z-score标准化
如： $300\le x_{1}\le2000,\mu_1=600,\sigma_1=450; 0\le x_{2}\le5,\mu_2=2.3,\sigma_2=1.4,$
则： $x_{1,scaled}=\frac{x_{1}-\mu_{1}}{\sigma_1},x_{2,scaled}=\frac{x_{2}-\mu_{2}}{\sigma_2}$
得： $-0.67\le x_{1,scaled}\le3.1,-1.6\le x_{2,scaled}\le1.9$

最大值标准化

均值标准化

Z-score标准化

判断是否标准化

判断梯度下降算法是否收敛（Convergence）

一般有两种方法判断：

看迭代图，下面左图中红色部分就是收敛了（推荐这种，比较直观且容易发现错误）
设置一个阈值 $\varepsilon$ ，当每次迭代后 $J$ 的减少值小于 $\varepsilon$ ，就说是收敛了（通常情况下 $\varepsilon$ 比较难以确定）

注：当使用批梯度下降算法（batch gradient descent）发现每次迭代 $J$ 有增大情况，则查看是否代码错误或学习率 $\alpha$ 是否设置得当，因为 $J$ 每次迭代应该减少。
在这里插入图片描述

如何设置学习率（Learning Rate）

当设置一个很小的学习率 $\alpha$ 时，梯度下降算法理论上每次迭代都会使代价函数 $J$ 变小，如果没有变小的话就看是否代码有误。但当学习率 $\alpha$ 很小时算法的收敛速度会变慢。所以我们可以多次尝试选择合适学习率 $\alpha$ ，如先设置 $\alpha=0.001$ ，然后每次乘以3，得到 $0.003, 0.01, 0.03, 0.1, 0.3, 1$ ，观察不同学习率下的收敛情况然后选择合适的学习率 $\alpha$ 。
在这里插入图片描述