Machine Learning：Gradient Descent（梯度下降法）

最新推荐文章于 2024-07-17 00:50:53 发布

King_HAW

最新推荐文章于 2024-07-17 00:50:53 发布

阅读量493

点赞数

分类专栏： ●深度学习文章标签：机器学习

本文链接：https://blog.csdn.net/king_haw/article/details/78856365

版权

●深度学习专栏收录该内容

3 篇文章 0 订阅

订阅专栏

Machine Learning：Gradient Descent（梯度下降法）

梯度下降法是机器学习中最常用的几种优化方法之一，目的为了找到合适的参数向量 $\theta$ ，使得代价函数 $J(\theta)$ 最小，梯度下降法的用途很广，本文中介绍使用梯度下降法来最小化线性回归问题中的 $J(\theta)$ 。

基本概念：

输入(Input)

输入为一个模型的训练样本，通常为对于数据集提取的特征，也可以为采集的原始数据，通常使用 $x_{i}^{(i)}$ 表示。上标为样本序号，表示为第几组样本。下标为样本中的特征序号，表示为当前样本中的第几个特征。 $x_{i}^{(i)}$ 又称为训练集。

输出(Output)

输出为一个模型的预测结果，通常使用 $y^{(i)}$ 表示。

假设函数(Hypothesis Function)

假设函数是在问题中根据实际数据去得到的目标函数，以便去预测之后的新数据。通常使用 $h_{\theta}$ 表示，此时 $h_{\theta}=\theta_{0}+\theta_{1}x_{1}+\theta_{2}x_{2}+...$ ，为了讨论方便本文中 $h_{\theta}(x)=\theta_{0}+\theta_{1}x_{1}$ 。

代价函数(Cost Function)

代价函数定义为假设函数和实际数据之间的误差，本文中使用平方代价函数(Square Error)，定义为

J (θ) = 1 2 m \sum i = 1 m (h θ (x (i)) - y (i)) 2

$J(\theta)= \frac{1}{2m} \sum_{i=1}^m (h_{\theta}(x^{(i)})-y^{(i)})^2$

梯度下降法

通过上式可以看出， $J(\theta)$ 越小，则 $h_{\theta}(x)$ 和原始数据的分布就越接近。为了求出 $J(\theta)$ 的最小值，我们使用梯度下降法(目前只考虑单元线性回归，即参数为 $\theta_{0}$ 和 $\theta_{1}$ )。
梯度下降法的步骤为：
1.选取参数 $\theta_{0}$ 和 $\theta_{1}$ 的初值，通常情况下为随机选取，也可以将 $\theta_{0}$ 和 $\theta_{1}$ 置0。
2.改变 $\theta_{0}$ 和 $\theta_{1}$ 的值，直到 $J(\theta)$ 达到最小值(全局或者局部极小)。
我们选取使得 $J(\theta)$ 下降最快的方向，也就是某点梯度方向的参数值来更新 $\theta_{0}$ 和 $\theta_{1}$ 。更新方法为

θ j : = θ j - α \partial \partial θ j J (θ 0, θ 1) ， 此 时 j = 0, 1

$\theta_{j}:= \theta_{j} - \alpha \frac{\partial}{\partial \theta_{j}} J(\theta_{0}, \theta_{1})，此时j=0,1$
上式中的

:= := $:=$ 表示赋值。
这里我们可以对于

θ 0 θ 0 $\theta_{0}$ 和

θ 1 θ 1 $\theta_{1}$ 的更新方法进一步推导

θ 0 : = θ 0 - α \partial \partial θ 0 J (θ 0, θ 1) : = θ 0 - α \partial \partial θ 0 1 2 m \sum i = 1 m ((θ 0 + θ 1 x (i) 1) - y (i)) 2 : = θ 0 - α m \sum i = 1 m (θ 0 + θ 1 x (i) 1 - y (i)) (1) (2) (3)

$\begin{align} \theta_{0} &:= \theta_{0} - \alpha \frac{\partial}{\partial \theta_{0}} J(\theta_{0}, \theta_{1})\\ &:= \theta_{0} - \alpha \frac{\partial}{\partial \theta_{0}} \frac{1}{2m} \sum_{i=1}^m ((\theta_{0}+\theta_{1}x_{1}^{(i)})-y^{(i)})^2\\ &:= \theta_{0} - \frac{\alpha}{m} \sum_{i=1}^m (\theta_{0}+\theta_{1}x_{1}^{(i)}-y^{(i)})\\ \end{align}$
同理可得

θ 1 : = θ 1 - α \partial \partial θ 1 J (θ 0, θ 1) : = θ 1 - α \partial \partial θ 1 1 2 m \sum i = 1 m ((θ 0 + θ 1 x (i) 1) - y (i)) 2 : = θ 1 - α m \sum i = 1 m (θ 0 + θ 1 x (i) 1 - y (i)) x (i) 1 (4) (5) (6)

$\begin{align} \theta_{1} &:= \theta_{1} - \alpha \frac{\partial}{\partial \theta_{1}} J(\theta_{0}, \theta_{1})\\ &:= \theta_{1} - \alpha \frac{\partial}{\partial \theta_{1}} \frac{1}{2m} \sum_{i=1}^m ((\theta_{0}+\theta_{1}x_{1}^{(i)})-y^{(i)})^2\\ &:= \theta_{1} - \frac{\alpha}{m} \sum_{i=1}^m (\theta_{0}+\theta_{1}x_{1}^{(i)}-y^{(i)})x_{1}^{(i)}\\ \end{align}$
需要注意的是，只有在对所有参数

θ j θ j $\theta_{j}$ 完成计算之后，才能进行更新。不能对于参数计算之后马上更新。也就是所有的参数需要同时更新(Simultaneous Update)。
上式中的

α α $\alpha$ 被称为学习率(Learning Rate)，

α α $\alpha$ 决定了参数

θ j θ j $\theta_{j}$ 更新的步长。

α α $\alpha$ 取值过小，会导致

J(θ) J ( θ ) $J(\theta)$ 的收敛速度过慢，

α α $\alpha$ 取值过大，则可能会导致

J(θ) J ( θ ) $J(\theta)$ 越过最小值点，进而发散。在实际操作过程中，通常采用动态

α α $\alpha$ ，即起步阶段

α α $\alpha$ 取值较大，接近极小值点时

α α $\alpha$ 开始减小。事实上在接近最小值点的时候，上式中的偏导数那一项也会减小，所以

α α $\alpha$ 取值固定也是可以的。
因为在更新参数的时候使用了

m m <script id="MathJax-Element-46" type="math/tex">m</script>个数据，也就是所有的训练集数据，所以上面的梯度下降法也被称为批梯度下降法(Batch Gradient Descent)。
本文主要偏向于数学公式推导，相关视频可以参考 Andrew Ng 机器学习课程，本文相关内容也源于该课程。