梯度下降法和牛顿法的简单对比

最新推荐文章于 2021-11-14 17:59:58 发布

Titan0427

最新推荐文章于 2021-11-14 17:59:58 发布

阅读量1.2k

点赞数 1

分类专栏：机器学习

本文链接：https://blog.csdn.net/titan0427/article/details/79254867

版权

机器学习专栏收录该内容

4 篇文章 0 订阅

订阅专栏

梯度下降法和牛顿法

机器学习问题可以分为两类：

给定data求model；
给定model求解 θ ：
- SGD或BGD（沿一阶方向）
- Newton（沿二阶方向）
- BFGS（居于一、二阶方向之间）
- L-BFGS

通过一个例子来对比两种求参算法的区别。

问题：求解 $\sqrt a$

解法一：梯度下降法

令 $\sqrt a=x$ ，则 $x^2-a=0$ 。

令 $f(x)=x^2-a$ ， $F(x)=\int_{-\infty }^{+\infty}f(x)dx$ 。

则问题转为求 $F(x)$ 的极值。

根据梯度下降法的更新公式得：

$x_{n+1}=x_n-\lambda\times F'(x)$

即 $x_{n+1}=x_n-\lambda\times ({x_{n}}^2-a)$

解法二：牛顿法

$f(x)$ 由泰勒展开，忽略高阶导数可得： $f(x)\approx f(x_0)+f'(x_0)\times (x-x_0)+\frac{f'(x_0)}{2}\times (x-x_0)^2$ 。

令 $g(x)=f'(x)$ ，将上式两边同时对 $x$ 求导，可得： $g(x)=f'(x_0)+f''(x_0)\times (x-x_0)$ 。

进一步可得： $\frac{g(x)}{f''(x_0)}=\frac{f'(x_0)}{f''(x_0)}+x-x_0$

即： $x=x_0-\frac{f'(x_0)}{f''(x_0)}+\frac{g(x)}{f''(x_0)}$

当取得极值点时， $g(x)=0$ ，所以： $x=x_0-\frac{1}{f''(x_0)}\times f'(x_0)$ 。即牛顿法的更新公式。

如果将 $\frac{1}{f''(x_0)}$ 改为 $\lambda$ ，即 $\lambda$ 随意取值，则退化为了随机梯度下降法。换句话说，如果随机梯度下降法的 $\lambda$ 不是随意选的，而是选为了 $\frac{1}{f''(x_0)}$ ，即为牛顿法。
带阻尼的牛顿法： $x=x_0-\lambda\frac{1}{f''(x_0)}\times f'(x_0)$

回到求解 $\sqrt a$ 的问题中：

令 $f(x)=x^2-a$ ， $F'(x)=f(x)$ ，则问题依然是转为求解 $F(x)$ 的极值。根据牛顿法得到更新公式： $x=x_0-\frac{F'(x_0)}{F''(x_0)}=x_0-\frac{{x_0}^2-a}{2\times x_0}=\frac{1}{2}\times (x_0+\frac{a}{x_0})$ 。

求解代码如下：

import math

# 梯度下降法
a = 85
learning_rate = 0.01
x = 0
for i in range(1000):
    x -= learning_rate * (x ** 2 - a)
print('{0}的平方根(近似)为: {1}, 真实值是: {2}, 误差为: {3}'.format(a, x, math.sqrt(a), x-math.sqrt(a)))

# 牛顿法
x = 1
for i in range(1000000):
    x = (x + a/x) / 2
print('{0}的平方根(近似)为: {1}, 真实值是: {2}, 误差为: {3}'.format(a, x, math.sqrt(a), x-math.sqrt(a)))

Titan0427

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
梯度下降法和牛顿法的简单对比

梯度下降法和牛顿法机器学习问题可以分为两类：给定data求model；给定model求解θ" role="presentation">θθ\theta ： SGD或BGD（沿一阶方向）Newton（沿二阶方向）BFGS（居于一、二阶方向之间）L-BFGS通过一个例子来对比两种求参算法的区别。问题：求解a" role="presentation">a−−√
复制链接

扫一扫