机器学习面试：牛顿法为什么比梯度下降法更快

我家大宝最可爱

已于 2024-07-29 21:52:49 修改

阅读量167

点赞数

分类专栏：机器学习面试文章标签：机器学习

于 2022-04-07 11:58:37 首次发布

本文链接：https://blog.csdn.net/he_wen_jie/article/details/124008028

版权

机器学习面试专栏收录该内容

18 篇文章 0 订阅

订阅专栏

本文探讨了为什么牛顿法在机器学习中比梯度下降法更快。首先解释了梯度下降法求极值的原理，通过泰勒展开式和方向导数阐述了梯度的概念。接着，介绍了牛顿法的定义，通过二阶泰勒展开式展示牛顿法如何更准确地逼近函数极值。最后，通过比较一阶和二阶泰勒展开式，说明牛顿法在函数拟合上的优势，从而解释了其速度更快的原因。

摘要由CSDN通过智能技术生成

梯度下降或者牛顿法本质都是通过迭代的方式逼近最值，而迭代的目标则是找出下一个逼近最值的位置，梯度下降法是根据一阶梯度来确定下一个位置，而牛顿法则是根据二阶梯度来确定下一个位置。

泰勒展开式就是使用多项式函数在 $x_0$ 处逼近函数 $f (x)$ ，即在 $x_0$ 处 $f (x)$ 等于泰勒展开式。虽然是废话，但是一定要好好思考，这个才是核心

1. 梯度下降法为什么可以求极值

a. 梯度的定义

我们通常称在函数 $f (x)$ 某个点上 $x_0$ 的变化率为导数，通常可以求出这个点的切线，一般叫斜率，即
$f'(x_0)=lim \frac{\Delta y}{\Delta x}=lim\frac{f(x_0+\Delta x)-f(x_0)}{\Delta x}$
对于多元函数，则是称之为方向导数，想象一下二维函数 $z = f (x, y)$ ，这是一个曲面，在某个点 $x_0,y_0)$ 可以求一个切面，每个方向都可以求一个斜率，假如求方向夹角为 $\alpha$ 的变化率
$\begin{aligned} lim\frac{f(x_0+tcos\alpha,y_0+tsin\alpha)-f(x_0,y_0)}{t}&=f_x(x_0,y_0)cos\alpha+f_y(x_0,y_0)sin\alpha \end{aligned}$
令 $\pmb{g}=[f_x(x_0,y_0),f_y(x_0,y_0)]$ , $\pmb{e}=[cos\alpha,sin\alpha]$
那么有
$f_x(x_0,y_0)cos\alpha+f_y(x_0,y_0)sin\alpha=\pmb{g}*\pmb{e}\\=|\pmb{g}||\pmb{e}|cos\theta=|\pmb{g}|cos\theta$
其中， $\theta$ 为 $\pmb{g}$ 和 $\pmb{e}$ 的夹角， $\alpha$ 是我们求某个斜率的方向。那么我们该如何确定 $\alpha$ 使得变化率最大呢？
当 $x_0,y_0)$ 确定的时候， $\pmb{g}$ 也就确定了，所以

当 $\theta=0$ 时， $\pmb{e}$ 和 $\pmb{g}$ 的方向相同，此时变化率最大，且为正
当 $\theta=\pi$ 时， $\pmb{e}$ 和 $\pmb{g}$ 的方向相反，此时变化率最大，且为负

通过 $\pmb{g}$ 就可以确定 $\alpha$ 了，这两个是等价的。实际使用中，我们称 $\pmb{g}$ 为梯度。
现在应该就明白为什么说梯度是函数某个点变化最大最快的方向了吧。

b. 泰勒展开式

然后看一阶泰勒展开式
$f(x_0+\Delta x)=f(x_0)+f'(x_0) \Delta x$
为了求极小值，我们希望找到的下一个 $x'=x_0+\Delta x$ 可以使 $f (x)$ 变小，因此希望有
$f(x_0+\Delta x)=f(x')<=f(x_0)$
将一阶泰勒展开式带入
$f'(x_0) \Delta x=f(x_0+\Delta x)-f(x_0) <= 0$

所以只有当 $f^{'} (x)$ 和 $\Delta x$ 的符号相反，才能保证有 $f'(x_0) \Delta x <0$ ，做一个简单的变换 $\Delta x=-\lambda f'(x_0)$ ，这个变换保证了符号相反，并且要求 $\lambda>0$ ， $\lambda$ 是实时变化的，无法确定，但是在使用中，我们通常会给一个很小的值，就是梯度下降法中的步长。

在这里插入图片描述

梯度的方向为什么是函数值增加最快的方向？

2. 牛顿法为什么比梯度下降法更快

a. 牛顿法的定义

一阶牛顿法主要是求0值，二阶牛顿法是求极值，所以一般在机器学习中说的牛顿法主要是指二阶的。我们使用二阶泰勒展开式
$f(x)=f(x_0)+f'(x_0)(x-x_0)+\frac{1}{2}f''(x_0)(x-x_0)^2$
根据极值的定义 $f^{'} (x) = 0$ ，我们对x进行求导
$0=f'(x)=f'(x_0)+f''(x_0)(x-x_0)$
可以得到牛顿法的更新公式
$x=x_0-\frac{f'(x_0)}{f''(x_0)}$
多维度的情况就不做推导了，需要查一下资料。

b. 为什么牛顿法更快

从下面两个图可以看到，梯度下降法使用的一阶泰勒展开式，可以认为是在 $x_0$ 处使用线性函数在拟合。按照斜率方向更新x。而牛顿法呢？使用的是二阶泰勒展开式，相当于是使用一个二阶函数在 $x_0$ 处进行函数拟合。求梯度时，直接找到了更优的点。
举个极端的例子。如果我们的函数就是二阶的，如果使用梯度下降法，依然需要一步一步逼近，但是当我们使用牛顿法的时候，相当于直接求出了这个函数的极值点，一次更新就可以了。

牛顿法

梯度下降法家族、牛顿法家族、拟牛顿家族

我家大宝最可爱

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
机器学习面试：牛顿法为什么比梯度下降法更快

泰勒展开式就是使用多项式函数在x0x_0x0处逼近函数f(x)f(x)f(x)，即在x0x_0x0处f(x)f(x)f(x)等于泰勒展开式。虽然是废话，但是一定要好好思考，这个才是核心1. 梯度下降法为什么可以求极值a. 梯度的定义我们通常称在函数f(x)f(x)f(x)某个点上x0x_0x0的变化率为导数，通常可以求出这个点的切线，一般叫斜率，即f′(x0)=limΔyΔx=limf(x0+Δx)−f(x0)Δxf'(x_0)=lim \frac{\Delta y}{\Delta x}=li
复制链接

扫一扫

专栏目录