动手学深度学习之梯度下降

最新推荐文章于 2022-08-27 00:13:43 发布

程序猿一帆

最新推荐文章于 2022-08-27 00:13:43 发布

阅读量161

点赞数

分类专栏：深度学习文章标签：深度学习神经网络 pytorch 梯度下降

原文链接：https://www.boyuai.com/elites/course/cZu18YmweLv10OeV

版权

深度学习专栏收录该内容

32 篇文章 1 订阅

订阅专栏

梯度下降算法是神经网络反向传播用到的优化算法，可以说是最重要的内容，这一节会介绍梯度下降算法以及如何改进传统的梯度下降算法。

梯度下降

一维梯度下降
沿梯度反方向移动自变量可以减小函数值；
$\leftarrow x-\eta f^{\prime}(x)$
学习率 $\eta$ 会控制步幅；
局部最小值会出现在不是凸函数的损失函数优化过程中。
多维梯度下降
$\nabla f(\mathbf{x})=\left[\frac{\partial f(\mathbf{x})}{\partial x_{1}}, \frac{\partial f(\mathbf{x})}{\partial x_{2}}, \ldots, \frac{\partial f(\mathbf{x})}{\partial x_{d}}\right]^{\top}\\ \mathbf{x} \leftarrow \mathbf{x}-\eta \nabla f(\mathbf{x})$
自适应方法
总得来说，梯度下降有这样的一种趋势：刚开始离最小值远的时候应该下降的快点，这样收敛会快些；当离最小值近的时候，步子要小一点，防止跑过头了。自适应方法都是希望能做到这样的效果。
牛顿法
在 $x+\epsilon$ 处泰勒展开：
$f(\mathbf{x}+\epsilon)=f(\mathbf{x})+\epsilon^{\top} \nabla f(\mathbf{x})+\frac{1}{2} \epsilon^{\top} \nabla \nabla^{\top} f(\mathbf{x}) \epsilon+\mathcal{O}\left(\|\epsilon\|^{3}\right)$
最小值点处满足： $\nabla f(\mathbf{x})=0$ ，即我们希望 $\nabla f(\mathbf{x}+ \epsilon)=0$ ，对上式关于 $\epsilon$ 求导，忽略高阶无穷小，有：
$\nabla f(\mathbf{x})+\boldsymbol{H}_{f} \boldsymbol{\epsilon}=0 \text { and hence } \epsilon=-\boldsymbol{H}_{f}^{-1} \nabla f(\mathbf{x})$
代码实现

c = 0.5

def f(x):
    return np.cosh(c * x)  # Objective

def gradf(x):
    return c * np.sinh(c * x)  # Derivative

def hessf(x):
    return c**2 * np.cosh(c * x)  # Hessian

# Hide learning rate for now
def newton(eta=1):
    x = 10
    results = [x]
    for i in range(10):
        x -= eta * gradf(x) / hessf(x)
        results.append(x)
    print('epoch 10, x:', x)
    return results

show_trace(newton())

在这里插入图片描述

随机梯度下降

对于有 $n$ 个样本对训练数据集，设 $f_i(x)$ 是第 $i$ 个样本的损失函数，则目标函数为：
$f(\mathbf{x})=\frac{1}{n} \sum_{i=1}^{n} f_{i}(\mathbf{x})$
其梯度为：
$\nabla f(\mathbf{x})=\frac{1}{n} \sum_{i=1}^{n} \nabla f_{i}(\mathbf{x})$
这就是批量梯度下降算法，可以看到其每次更新要求出所有样本对应的平均梯度，这需要 $O (n)$ 的时间复杂度，对于 $n$ 很大的时候，这会非常慢。所以，就有了随机梯度下降算法，每求出一个样本的梯度就更新，在整个训练集中也是可以随机采样一些样本进行梯度下降算法更新。
$\mathbf{x} \leftarrow \mathbf{x}-\eta \nabla f_{i}(\mathbf{x})$

小批量梯度下降

是批量梯度下降与随机梯度下降算法的折中，它选择每次求出一小部分样本的平均梯度进行更新参数，一轮更新完所有样本。

有些话说

一些问题：

批量梯度下降（Batch Gradient Descent）、随机梯度下降（Stochastic Gradient Descent，SGD）和小批量梯度下降（Mini-Batch Gradient Descent, MBGD）的区别？各自的优缺点？

程序猿一帆

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
动手学深度学习之梯度下降

梯度下降算法是神经网络反向传播用到的优化算法，可以说是最重要的内容，这一节会介绍梯度下降算法以及如何改进传统的梯度下降算法。梯度下降一维梯度下降沿梯度反方向移动自变量可以减小函数值；x←x−ηf′(x)x \leftarrow x-\eta f^{\prime}(x)x←x−ηf′(x)学习率η\etaη会控制步幅；局部最小值会出现在不是凸函数的损失函数优化过程中。多维梯度...
复制链接

扫一扫

专栏目录