[ML笔记]梯度下降和线性梯度下降

最新推荐文章于 2023-03-11 21:00:01 发布

古希腊小斑鸠

最新推荐文章于 2023-03-11 21:00:01 发布

阅读量972

点赞数

分类专栏：机器学习文章标签：机器学习梯度下降线性梯度下降

本文链接：https://blog.csdn.net/cicocogood21/article/details/75088002

版权

机器学习专栏收录该内容

6 篇文章 0 订阅

订阅专栏

引导

前一篇讲解代价函数作用，在监督学习的回归问题上，我们使用代价函数求解最优解，以确定假设函数。
代价函数公式
$J(θ_0,θ_1) =\frac{1}{2m}\sum_1^m(h_θ(x_i)-y_i)^2$
上文也提到，在参数较为复杂的情况下，代价函数的轮廓图可能如下图，该如何找到合适的 $θ_0,θ_1$ 呢？

预备知识

有关导数，偏导数，方向导数，梯度，向量的概念请参考博文：
[机器学习] ML重要概念：梯度（Gradient）与梯度下降法（Gradient Descent）

梯度下降

梯度下降是一种找到代价函数最优解的方法。

梯度下降原理

代价函数是一座山，我们站在山上某个点上，我们环视四周，从上往下看，找到一个方向，向下走，下降得最快，直到下降到最底部。

梯度下降步骤

确定向下每一步的步长，我们称作learning rate;
给定一个初始值(到山上某个点去);
确定一个向下的方向，向下走一步，步长为step 2规定的步长;
更新当前位置，回到step 3继续；
当下降的高度小于某个定义的值（比如0）,则停止下降。

梯度下降算法

repeat util convergence: {
　　 $θ_j :=θ_j-α\frac{∂}{∂θ_j}J(θ_0,θ_1)$ 　(simultaneously update j=0,j=1)
}
其中，α为learning rate， $\frac{∂}{∂θ_j}J(θ_0,θ_1)$ 是代价函数 $J(θ_0,θ_1)$ 在 ${θ_j}$ 方向的偏导数。

梯度下降算法特点

初始点不同，获得的最小值也不同，因此梯度下降算法求得的只是局部最小值；
越接近最小值，下降速度越慢（偏导数越来越小）

梯度下降过程

梯度下降示意图

如图，按照X一步步下降，起始点不同，下降到的最低点也可能不同。

需要注意的点

α值该如何选择?会有什么影响？
答：如果取得一个合适的learning rate, 则代价函数应该越来越小(下降)，正确做法是实时观察代价函数变化，如果代价函数变小了，则learning rate取得合适，如果代价函数变大了，则应该减小learning rate的值。
如果learning rate 太小了，梯度下降就会很慢，如果learning rate太大，那么梯度下降可能掠过最小值，就可能出现无法收敛，甚至出现发散的现象。
如果 $(θ_0,θ_1)$ 已经处于局部最小值，那么 $(θ_0,θ_1)$ 会如何变化？
答： leave $(θ_0,θ_1)$ unchanged，因为已经在局部最小值，则导数肯定为0，则 $(θ_0,θ_1)$ 不会变化。
固定learning rate梯度下降如何收敛？
答：在convex函数（凸函数）底部，我们可以看到偏导数接近与0，因此最小值时，我们可以得到，
$θ_j:=θ_j-α*0$
越到底部，偏导数越小。因此固定步长时，收敛到底部时下降速度会越慢（特点中提到过），因此，无需慢慢减小α的值。

线性梯度下降

高数复习

开始之前，我们先来复习一点高数知识，

复合函数求导法则

$假设y=f(u)，u=φ(x), 且f(u)和φ(x)均可导，则复合函数y=f(φ(x))的导数为：$
$\frac{dy}{dx}=\frac{dy}{du}\frac{du}{dx}$ 或 $y'=f'(u)φ'(x)$

$如果函数u=φ(t)及v==ψ(t)都在点t可导，函数z=f(u，v)在对应(u，v)具有连续偏导数，则复合函数z=f[φ(t),ψ(t)]在点t可导，且，$
$\frac{dz}{dt}=\frac{∂z}{∂u}\frac{du}{dt}+\frac{∂z}{∂v}\frac{dv}{dt}$

和的导数等于导数的和

复习完毕，我们继续
（TODO：高数复习篇）

线性回归梯度下降

假设函数：
$h_θ(x) =θ_0+θ_1x$

代价函数：
$J(θ_0,θ_1) =\frac{1}{2m}\sum_1^m(h_θ(x_i)-y_i)^2$

梯度下降算法：
repeat util convergence: {
　　 $θ_j :=θ_j-α\frac{∂}{∂θ_j}J(θ_0,θ_1)$ 　(simultaneously update j=0,j=1)
}

在线性回归中，我们使用真实的代价函数和假设函数可以推导出梯度下降方程如下：

repeat util convergence: {

　　 $θ_0 :=θ_0-α\frac{1}{m}\sum_1^m(h_θ(x_i)-y_i)$
　　
　　 $θ_1 :=θ_1-α\frac{1}{m}\sum_1^m((h_θ(x_i)-y_i)x_i)$
}

推导过程关键在于如何求 $\frac{∂}{∂θ_j}J(θ_0,θ_1)$ ,

$\frac{∂}{∂θ_j}J(θ_0,θ_1)= \frac{∂}{∂θ_j}\frac{1}{2m}\sum_1^m(h_θ(x_i)-y_i)^2$

假设 $f(θ)=h_θ(x_i)-y_i$ ,则，

$\frac{∂}{∂θ_j}J(θ_0,θ_1)=\frac{∂}{∂θ_j}\frac{1}{2m}\sum_1^mf^2(θ)=\frac{1}{2m}*2f(θ)\sum_1^mf'(θ)=\frac{1}{m}f(θ)\sum_1^mf'(θ)$

因此
j=0,

$f(θ)\sum_1^mf'(θ)= (h_θ(x_i)-y_i)\sum_1^m\frac{∂}{∂θ_0}(h_θ(x_i)-y_i)$ ,

$\sum_1^m\frac{∂}{∂θ_0}(h_θ(x_i)-y_i)=\sum_1^m\frac{∂}{∂θ_0}(θ_0+θ_1x_i-y_i)=\sum_1^m1$ ，那么，

$θ_0 :=θ_0-α\frac{1}{m}\sum_1^m(h_θ(x_i)-y_i)$

j=1,

$f(θ)\sum_1^mf'(θ)= (h_θ(x_i)-y_i)\sum_1^m\frac{∂}{∂θ_1}(h_θ(x_i)-y_i)$ ,

$\sum_1^m\frac{∂}{∂θ_1}(h_θ(x_i)-y_i)=\sum_1^m\frac{∂}{∂θ_1}(θ_0+θ_1x_i-y_i)=\sum_1^mx_i$ ，那么，

$θ_1 :=θ_1-α\frac{1}{m}\sum_1^m((h_θ(x_i)-y_i)x_i)$

推导结束。

具体怎么使用，请听下回分解。

古希腊小斑鸠

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
[ML笔记]梯度下降和线性梯度下降

引导前一篇讲解代价函数作用，在监督学习的回归问题上，我们使用代价函数求解最优解，以确定假设函数。代价函数公式 J(θ0,θ1)=12m∑m1(hθ(xi)−yi)2J(θ_0,θ_1) =\frac{1}{2m}\sum_1^m(h_θ(x_i)-y_i)^2 上文也提到，在参数较为复杂的情况下，代价方法的轮廓图可能如下图，改如何找到合适的θ0,θ1θ_0,θ_1呢？梯度下降梯
复制链接

扫一扫