浅谈梯度下降算法

飞机火车巴雷特

于 2021-09-23 21:02:40 发布

阅读量276

点赞数 1

分类专栏：机器学习文章标签：算法机器学习

本文链接：https://blog.csdn.net/qq_36158230/article/details/120441139

版权

机器学习专栏收录该内容

33 篇文章 1 订阅

订阅专栏

一、解决的问题

假设 $f(\textbf{x})$ 是一个凸函数，其中 $\textbf{x}$ 是一个向量。想要找到 $f(\textbf{x})$ 的极小值，那么我们就可以通过梯度下降(Cauchy, 1847)的方法找到这个极小值以及极小值所对应的 $\textbf{x}$ 。注意，这里的凸函数是指

如果说我们想要解决的问题不是找到 $f(\textbf{x})$ 的极小值而是找到 $f(\textbf{x})$ 的极大值，那么也很简单，只要转化一下问题即可，即找到 $-f(\textbf{x})$ 的极小值。

二、一个简单的实际问题

这里假设 $\textbf{x}$ 的维度只有一维，然后我们想要下面函数的极大值

$f(x)=-(x+2)(x-6)=-x^2+4x+12$

一般使用梯度下降算法时我们是不知道函数图像的，但为了便于学习梯度下降算法，我这里先给出它所对应的函数图像，如下

这个函数显然只有极大值，没有极小值。因此，为了能够使用梯度下降法，我们需要对该问题进行转换，即找到函数 $-f(x)=x^2-4x-12$ 的极小值，它所对应的函数图像如下

这个时候，我们才能够直接使用梯度下降找到函数 $-f(x)$ 的极小值。注意，经过优化后，我们能够找到 $-f(x)$ 的极小值以及极小值所对应的 $x$ ，但找到极小值不是我们的最终目的，通过 $x$ 来找到 $f(x)$ 的极大值才是最终目的。

三、梯度下降法

在使用梯度下降算法之前，我们首先需要明白，输入的是什么，输出的是什么。输入的是 $x$ 的初始值 $x_0$ 和目标函数 $-f(x)$ ；输出的是目标函数 $-f(x)$ 极小值及其对应的 $x$ 。

我们对 $-f(x)$ 进行求导，得到 $-f(x)$ 关于 $x$ 的梯度 $\bigtriangledown_x (-f(x))$ ，具体如下

$\bigtriangledown_x (-f(x))=\frac{d(-f(x))}{dx}=2x-4$

然后我们通过

$x\leftarrow x-\epsilon\bigtriangledown_x (-f(x))$

来迭代更新 $x$ ，其中 $\epsilon$ 是学习率。当 $\bigtriangledown_x (-f(x))\approx 0$ 时，梯度下降算法收敛。换句话说，当 $\bigtriangledown_x (-f(x))\approx 0$ 时，我们找到了 $-f(x)$ 的极小值的近似值（约等于极小值）。

四、使用Python3实现

根据上面的解决方法，除了需要设置 $-f(x)$ 函数、 $-f(x)$ 的梯度函数和 $x$ 的初始值，我们还需要指定一个学习率 $\epsilon$ 。这里， $\epsilon$ 设定为0.00001， $x$ 的初始值设置为-5到5之间的浮点数。具体的代码如下

import math
import random


# y = f(x) = -x*x + 4x + 12
def f(x):
    return (- x * x) + 4 * x + 12


# df(x)/dx = -2x + 4
def df(x):
    return (- 2 * x) + 4


# y = -f(x)
def negative_f(x):
    return -f(x)


# d(-f(x))/dx = -df(x)/dx =-(df(x)/dx)
def negative_df(x):
    return -df(x)


# 梯度下降法求y=f(x)= -x*x + 4x + 12 极大值及其对应的x
# 转换后
# 梯度下降法求y=-f(x)极小值及其对应的x
def gradient_descent():
    # 设置学习率
    epsilon = 0.00001
    # 随机初始化x得到x0
    x = random.uniform(-5, 5)
    # 求梯度(用于更新x)
    gradient = negative_df(x)
    negative_fx = negative_f(x)
    # 输出x、y和梯度的初始值
    print('x={:.8f}'.format(x), '-f(x)={:.8f}'.format(negative_fx), 'd(-f(x))/dx={:.8f}'.format(gradient))
    while True:
        # 迭代更新x
        x = x - epsilon * gradient
        # 求梯度(用于更新x)
        gradient = negative_df(x)
        negative_fx = negative_f(x)
        # 输出梯度下降过程x、y和梯度的变化
        print('x={:.8f}'.format(x), '-f(x)={:.8f}'.format(negative_fx), 'd(-f(x))/dx={:.8f}'.format(gradient))
        # 判断梯度下降是否达到收敛条件
        if math.fabs(gradient) < 0.0001:
            break
    # 输出y=-f(x)的极小值及其对应的x
    print('Final x={:.8f}'.format(x), '-f(x)={:.8f}'.format(negative_f(x)))
    # 根据y=-f(x)极小值对应的x，求y=f(x)的极大值
    print('Final x={:.8f}'.format(x), 'f(x)={:.8f}'.format(f(x)))


# 程序入口
if __name__ == '__main__':
    gradient_descent()

五、结果

最终的输出结果为

Final x=1.99995000 -f(x)=-16.00000000
Final x=1.99995000 f(x)=16.00000000

第二行的输出值 $x=1.99995000$ 和 $f(x)=16.00000000$ （极大值）就是我们通过梯度下降法想要实现的目的。

如果使用迭代的次数作为横坐标， $-f(x)$ 作为纵坐标，那么就能够得到下面的函数优化曲线图。我们能够发现，当迭代次数趋于无穷大时， $-f(x)$ 收敛于-16。

六、简单的讨论

①由于函数 $f(\textbf{x})$ 不一定只有一个极小值，所以当 $f(\textbf{x})$ 的极小值个数大于1时，使用 $f(\textbf{x})$ 解决最优化问题时，很有可能会陷入局部最优化，即虽然找到了一个极小值，但这个极小值很有可能不是全局的极小值（这里全局的极小值等于最小值）。

②经过实践发现，学习率 $\epsilon$ 的设置也是很需要技巧的。过大的学习率或者过小的学习率都不好，适中的学习率才是最好的。但是如何才能够找到适中的学习率呢？不知道。这个需要研究者根据特定的问题并经过不断的尝试才能够发现最合适的学习率。