机器学习中常用的优化算法总结

最新推荐文章于 2022-04-06 21:14:44 发布

HsiaChubby

最新推荐文章于 2022-04-06 21:14:44 发布

阅读量884

点赞数 1

分类专栏：技术文章标签：机器学习

本文链接：https://blog.csdn.net/HsiaChubby/article/details/82528571

版权

优化算法是机器学习中的“方法论”，优化算法会告诉机器应该如何优化学习的进程，让自己能够更好地掌握学习到的知识，本文将针对机器学习领域中常用的几种优化算法进行总结。

梯度下降法

梯度下降法与梯度、导数的概念

梯度下降法是用来求解无约束优化问题的一种数学方法，通过梯度下降法可以获取到函数的局部极小值。这里存在一个概念“梯度”，梯度的本意实际上是一个向量，及具有方向性和数值性，其表示的是一个函数在改点沿着该方向变化最快（这个方向是往函数值变大的方向），这个变化率实际上就是该梯度的模。因此，在使用梯度下降法的时候，实际上是要求我们选择梯度的反方向进行计算，只有这样才能保证我们能够取到极小值，这也就是为什么在使用导数（导数与梯度实际上是同一个概念，只不过梯度是一种抽象的表述概念，而导数是实际上用来求解梯度的一种数学表示方式，导数值前面的正负号实际上是决定了梯度的方向）进行参数迭代的时候是要在导数的前面加上负号。

如上图所示，我们对函数f在A点对自变量x求解右导数 $f^\prime$ ，其值为正数，那是因为在A点右侧函数值是增大的，因此，如果要想f值变小，则需要让往左移 $x=x_a-\delta f^\prime$ ；对B点求解右导数，其值为负数，那是因为在B点右侧函数值是变小的，因此，如果想要f值变小，则需要让x往右移 $x=x_a-\delta f^\prime$ ，因此，如果是要使用梯度下降法，则在迭代过程中要在导数的前面加上负号。

梯度下降法详解

应用前提条件

首先，我们得需要明确梯度下降法并不是万能的，因为在机器学习领域中，存在一个叫做NFL(No Free Launch)定理，这个定理说明了不存在一种模型或者算法能够适应于所有的应用场景。那么既然如此，梯度下降法能够应用于哪些场景中呢。其实从梯度下降法的原理来看，只要我们沿着梯度方向能够寻找到合适的最小值，那么就可以使用梯度下降法，那么如何判断什么样的函数是满足梯度下降法的应用的呢，最简单的一种方法就是判断该函数是否是下凸函数，如果一个函数是下凸函数，那么我们就可以针对该函数使用梯度下降法来求解最小值。当然，对于下凸函数可能会存在很多个局部极小值点，那么在这种情况下，使用梯度下降法来求解函数的最小值可能会存在一些偏差，那么此时，会通过一些技术性的措施（比如：采用随机性，分别从不同起始点多次进行梯度下降求解等）来优化我们使用梯度下降法的过程。

在梯度下降法中，通常需要优先确定以下条件：
1. 步长（学习率） $\alpha$
2. 目标函数（损失函数，但是在确定损失函数过程 $L(\theta)$ ，需要优先确定模型 $h_\theta(x)$ ）
基于上述两点先决条件，可以获得梯度下降法中最关键的表达式：
$\theta_t = \theta_{t-1}-\alpha \frac{\partial L}{\partial x}$

下面将分别基于线性回归模型来阐述代数形式和矩阵形式下的梯度下降法。

梯度下降法的代数形式表达

假设有一组数据集 $(x_1^1,x_2^1,...,x_n^1,y^1),(x_1^2,x_2^2,...,x_n^2,y^2),...,(x_1^m,x_2^m,...,x_n^m,y^m)$ ，该数据集共有m个样本，每个样本包含有n个特征量。
如果我们想通过线性回归模型来构建 $x$ 与 $y$ 之间的关系，可得如下模型： $h_\theta(x_1,x_2,...,x_n)=\theta_0+\theta_1 x_1 + ... + \theta_n x_n$ ,
采用线性模型常用的误差平方和作为损失函数L:
$L(\theta_0,theta_1,...,theta_n)=\frac{1}{2m}\sum_{j=1}^m(y_j-h_\theta(x_1^j,x_2^j,...,x_n^j)^2)$
使用梯度下降法求解，需要初始化相关参数，主要包含了 $\theta$ 、 $\alpha$ 、以及迭代停止距离 $\epsilon$ ,通常我们可以将 $\alpha$ 设置为0.9， $\theta$ 设置为0。
算法流程如下：
Step1:计算当前 $L(\theta_0,\theta_1,...,\theta_n)$ 关于每个 $\theta_i$ 的梯度： $\frac{\partial L}{\partial \theta_i}$ ；
Step2:用步长 $\alpha$ 乘以Step1中求得的每个关于 $\theta_i$ 的梯度，得到每个 $\theta_i$ 下降的距离 $d_i$ ；
Step3:判断每个 $\theta_i$ 的梯度下降距离 $d_i$ 的值是否都小于终止条件 $\epsilon$ ,如果是，则停止学习，将当前的学习到的所有的 $\theta_i$ 作为最终习得的参数，反之，进入Step4;
Step3:更新所有的 $\theta_i$ ,更新公式如下： $\theta_i=\theta_i-\alpha \frac{\partial L}{\partial \theta_i}$ ,然后重复Step1~Step3.

梯度下降法的矩阵形式表达

梯度下降法的矩阵表达形式实际上上对代数形式的矩阵话，为什么需要矩阵化？因为在实际的计算过程中，矩阵运算的效率与高于循环计算的效率，能够提升学习的效率。

通常我们会将样本数据集表示为 Xm×n

最低0.47元/天解锁文章

HsiaChubby

关注

1
点赞
踩
4

收藏

觉得还不错? 一键收藏
1
评论
机器学习中常用的优化算法总结

优化算法是机器学习中的“方法论”，优化算法会告诉机器应该如何优化学习的进程，让自己能够更好地掌握学习到的知识，本文将针对机器学习领域中常用的几种优化算法进行总结。梯度下降法梯度下降法与梯度、导数的概念梯度下降法是用来求解无约束优化问题的一种数学方法，通过梯度下降法可以获取到函数的局部极小值。这里存在一个概念“梯度”，梯度的本意实际上是一个向量，及具有方向性和数值性，其表示的是一个函...
复制链接

扫一扫