梯度下降算法(理论课)

最新推荐文章于 2024-09-11 00:16:09 发布

理物迷

最新推荐文章于 2024-09-11 00:16:09 发布

阅读量1.3k

点赞数 11

文章标签：算法机器学习 python

本文链接：https://blog.csdn.net/2303_78834656/article/details/141228349

版权

更合理地选取参数(梯度下降算法)

理论课

从上篇文章中可见，用穷举的方法是不容易找寻合适的参数 (w, b)，梯度下降算法给我们指明了一条路。

先进行简单复习一些重要知识点(单变量线性回归模型及其代价函数)。

概念	符号	值
模型	$f_{w,b}$	$wx^{(i)}+b$
代价函数	$J$	$err=\hat{y}^{(i)}-y^{(i)}$ $J=\frac{\sum^m_{i=1} err^2}{2m}$

通过选取 (w, b)，努力缩小 J，让 $\hat{y}$ 与 y 间的总偏差减小，以得到能够拟合样本点的模型 f 。

要科学的选择 (w, b)，我们只有一个参照——J 的形式。一般的想法是，针对 J 的结构，去选择 (w, b)，以期更快的找到合适的值。那么我们就先对 J 这个函数进行研究吧。

J 的解析式： $J(w,b)=\frac{\sum^m_{i=1} err^2}{2m}=\frac{\sum^m_{i=1} (\hat{y}^{(i)}-y^{(i)})^2}{2m}=\frac{\sum^m_{i=1} (wx^{(i)}+b-y^{(i)})^2}{2m}$

所以，我们要研究的其实是，如何使一个二元函数最小。一般来说，要求一个函数的最值是比较复杂的，所以我们会选择先计算函数的极值，结合端点，用比较的方式找出最值。

从数学的角度，求 J 的极值点是很容易的。

求 J 的偏导：
$\begin{aligned} & \frac{\partial J}{\partial w}=\frac{\sum^m_{i=1} (wx^{(i)}+b-y^{(i)})x^{(i)}}{m} \\ & \frac{\partial J}{\partial b}=\frac{\sum^m_{i=1} (wx^{(i)}+b-y^{(i)})}{m} \end{aligned}$
求极值：
$\begin{aligned} & 令：\frac{\partial J}{\partial w}=0,\frac{\partial J}{\partial b}=0\\ & w=\frac{\sum^m_{i=1}x^{(i)}y^{(i)}-m\bar{x}\bar{y}}{\sum^m_{i=1}x^{(i)2}-m\bar{x}^2}\\ & b=\bar{y}-w\bar{x} \end{aligned}$

这就是经典的但变量问题线性回归系数公式，作为一种重要的思想，在这里简单谈谈，当然不是今天的重点。因为有许多的函数并不是那么容易解出 (w, b)。

在借助计算机的情况下，我们可以容忍不是一步到位求出 (w, b)，而是通过迭代的方法，缓慢逼近 J 的极值点。更新 (w, b) 的方法如下。

$w=w-\alpha u_1$

$b=b-\alpha u_2$

关键在于找到合适的 $u_1\ ,\ u_2$ 使每一此迭代，(w, b) 总向着 J 减小的方向运动，准确说，向着 J 的一个极值点运动。 $u_1\ ,\ u_2$ 可以随迭代次数变化。

我们可以简单地猜一下， $u_1\ ,\ u_2$ 应该满足的性质

指示当前点偏移极值点的方向，在数学上，“方向” 反应为 “函数值的正负”；
在每个点都应该可求 $u_1\ ,\ u_2$ ；(这不是必要性质，我们完全可以想办法规避这些不可求的点，只要这个算法值得我们这么做)

$\alpha$ 被称为学习率(learning rate)，表示每一次更新 (w, b) 的幅度。

我们发现，取 $u_1=\frac{\partial J}{\partial w}\ ,\ u_2=\frac{\partial J}{\partial b}$ 恰好能满足这个要求，可以从一元函数的导数中理解到这一点。基于此，我们可以设了一种让计算机迭代优化 (w,b) 的算法，称之为梯度下降算法

即按照如下方法更新 (w, b)：

$w=w-\alpha \frac{\partial J}{\partial w}$

$b=b-\alpha \frac{\partial J}{\partial b}$

这与梯度有什么关系呢？从 w-b 图像上可以看到，点 (w, b) 是沿向量 $(\frac{\partial J}{\partial w},\frac{\partial J}{\partial b})$ 的方向运动的，这个向量就是我们所说的 “梯度”。数学上可以证明，沿梯度方向函数下降得最快，这就是为什么我们给 w, b 取相同的 $\alpha$ 。

举一反三，了解了这个算法设计的思路，我们是不是还能根据观察，设计出其它算法呢？
用一种更加通俗的方法来理解梯度下降算法：从山上一点出发，沿着坡度最大的方向小步前进，下坡，最终你一定会走到一个山谷中。

梯度下降算法(code1.2)

理物迷

关注

11
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
梯度下降算法(理论课)

一般的想法是，针对 J 的结构，去选择 (w, b)，以期更快的找到合适的值。一般来说，要求一个函数的最值是比较复杂的，所以我们会选择先计算函数的极值，结合端点，用比较的方式找出最值。在借助计算机的情况下，我们可以容忍不是一步到位求出 (w, b)，而是通过迭代的方法，缓慢逼近 J 的极值点。从上篇文章中可见，用穷举的方法是不容易找寻合适的参数 (w, b)，梯度下降算法给我们指明了一条路。使每一此迭代，(w, b) 总向着 J 减小的方向运动，准确说，向着 J 的一个极值点运动。我们可以简单地猜一下，
复制链接

扫一扫