梯度下降算法

最新推荐文章于 2022-05-15 19:50:17 发布

星空下0516

最新推荐文章于 2022-05-15 19:50:17 发布

阅读量272

点赞数

分类专栏：机器学习和深度学习模型专栏文章标签：梯度下降机器学习激活函数

本文链接：https://blog.csdn.net/qq_28531269/article/details/124133727

版权

机器学习和深度学习模型专栏专栏收录该内容

7 篇文章 1 订阅

订阅专栏

梯度下降

梯度下降的核心思想就是负梯度方向作为下降方向。

数学描述

设 $f (x)$ 在 $\vec{x}_k$ 附近连续可微，将 $\vec{x}_k$ 做一个小的移动 $\alpha \vec{d}$ ，那么此时 $\vec{x}=\vec{x}_k + \alpha \vec{d}$ ，这里的 $\vec{d}$ 是移动的单位方向( $||\vec{d}||=1$ )，如果 $f (x)$ 不是一个常量，即 $\nabla f(x_k)\neq0$ ，那么就可以对 $f(x_k)$ 进行泰勒展开：
$f(\vec{x})=f(\vec{x}_k)+(\nabla f(\vec{x}_k))^T(\vec{x}-\vec{x}_k)+o(||\vec{x}-\vec{x}_k||) \\=f(\vec{x}_k)+\alpha[\nabla f(\vec{x}_k)]^T\vec{d}+o(\alpha), \alpha > 0~~~~$
那么上式的变量就是中间的 $[\nabla f(\vec{x}_k)]^T\vec{d}$ ，因为这是两个向量的点积，也就是说这量的大小不但与这两个向量的大小有关，也与这两个向量的方向有关，这里 $\vec{d}$ 是单位向量，而在给定的 $f(\vec{x})$ 后，导数 $\nabla f(x_k)$ 的大小是确定的，而方向是不确定的：
$[\nabla f(\vec{x})]^T\vec{d}=-\nabla f(\vec{x})\cdot\cos\theta$
只有 $\theta=0$ 时，即负梯度方向时，这个中间项才取值最小，也就是 $f(\vec{x})$ 下降最快的方向。

算法描述:

输入：f(x)的表达式
输出：极小值点 $\vec{x}^\star$

选择初始点 $x_0$ ，收敛误差 $\epsilon>0$ ，迭代次数为 $N$ ，令 $k = 0$ 。
若 $|\nabla f(\vec{x})|\leq\epsilon$ , 则 $\vec{x}^\star=\vec{x}_k$ ，迭代停止；否则计算 $\vec{d}_k=-\nabla f(\vec{x})$ 。
选择和计算步长影子 $\alpha_k$ 。
计算 $\vec{x}_{k+1}=\vec{k}_k+\alpha_k\vec{d}_k$
令 $k = k + 1$ ，若 $k\geq N$ ，则 $\vec{x}^\star=\vec{x}_k$ ，停止迭代，否则装到2.

程序实例：

def fun(x):
    return x*x + 3
    
def diff(x):
    return 2*x
    
def grad(n):
    lr = 0.01
    x = 2
    y1 = fun(x)
    for i in range(n):
        x = x - lr * diff(x)
        y2 = fun(x)
        if abs(y1 - y2) < 1e-4:
            return x, y2
    return x, y2
    
    
print(grad(1000))

结果:

(3.3659347144319058e-09, 3.0)

即当 $x = 3.3659347144319058 e - 09$ 时， $f u n (x)$ 取得最小值3.0。

那么可以小结一下：**

梯度算法是机器学习的必学内容
在我们做计算的时候，其实并不是像上述距离一样简单。其实tensorflow和pytorch已经将求导的公式整合好了，到时候只需要调用即可，但是也是有必要学习一下的。神经网络的层与层之间的链接都有一个激活函数，也就是说，在上一层传过来，都要经过激活函数的求导，那么激活函数就要学习一下。