最常用的优化算法---梯度下降法

最新推荐文章于 2024-06-19 22:53:09 发布

*Major*

最新推荐文章于 2024-06-19 22:53:09 发布

阅读量1.1k

点赞数 3

本文链接：https://blog.csdn.net/qq_41375318/article/details/102835688

版权

五最常用的优化算法—梯度下降法

从抽象角度，先好好解释一下优化算法
每一个机器学习模型都有一个目标函数，而学习的目标，就是最小化目标函数
直观而言，当我们已经获得了一个函数，最小化该函数其实就是，在其自变量取值范围内，找到使得因变量最小的那个自变量取值点。
注意的训练模型涉及两个函数，一个是模型函数、一个是目标函数，这里说的是目标函数
是不是所有目标函数都能够在自变量参数取值范围内找到因变量参数的最小值呢？显然不是。

比如，这个多项式函数：y=x，x 属于实数——这样的函数就没有最小值。
因为，x 的取值范围是整个实数域，x 越小 y 也就越小，x 取值可以无限小下去，一直到负无穷，y 同样可以到负无穷。可惜负无穷并不是一个数值，y 实际上是没有最小值的。

一般使用梯度下降法进行优化的模型的目标函数，或者其他一些经典的机器学习模型的目标函数都是凸函数，函数的凸性保证了其最小值。

什么是凸函数：
定义：某个向量空间的凸子集（区间）上的实值函数，如果在其定义域上的任意两点，有 f(tx + (1-t)y) <= tf(x) + (1-t)f(y)，则称其为该区间上的凸函数。（凸是使用的外文定义，在国内一般为凹）

已经知道了学习的目标就是最小化目标函数的取值，而目标函数又是凸函数，那么学习的目标自然转化成了寻找某个凸函数的最小值
因为本课都是讲解经典机器学习模型，所以，前人的工作已经保证我们用到的目标函数都是凸函数。如果未来在应用中构建自己的目标函数，那么千万记得在直接应用任何优化算法之前，应该先确定它是凸函数。

在这里插入图片描述

1.随机取一个自变量的值X0
2.对应求出因变量值：f(x0)
3.计算f(x0)出目标函数发f(x)的导数
4.从f(x0)开始，沿着该处目标函数导数的反方向，按一定步长α向前走一步，走到的位置对应于自变量的取值为x1
5.继续重复2-3-4，达到指定迭代次数或近似收敛到最优解，退出迭代。

上面讲了梯度下降法，其中的 α，又叫做步长，它决定了为了找到最小值点而尝试在目标函数上前进的步伐到底走多大。
步长是算法自己学习不出来的，它必须由外界指定。
这种算法不能学习，需要人为设定的参数，就叫做超参数。
在这里插入图片描述
不过大步伐也不是没有优点。步伐越大，每一次前进得越多。步伐太小，虽然不容易“跨过”极值点，但需要的迭代次数也多，相应需要的运算时间也就越多。