牛顿法和梯度下降

最新推荐文章于 2024-04-20 11:57:25 发布

len_sround

最新推荐文章于 2024-04-20 11:57:25 发布

阅读量1.4k

点赞数 3

分类专栏：机器学习文章标签：机器学习牛顿法梯度下降

本文链接：https://blog.csdn.net/len_sround/article/details/45123757

版权

机器学习专栏收录该内容

0 篇文章 0 订阅

订阅专栏

泰勒定理

$f(x)$ 在 $x_0$ 点可展开为幂级数 $f(x) = \sum_{i=0}^{\infty} a_if(x - x_0)^i$ ，则 $f(x)$ 在 $x_0$ 的 $N(x_0, \sigma)$ 邻域内有任意阶导数，且系数 $a_n = \frac {f^{(n)}(x_0)} {n!}$ 。因此

f (x) = \sum i = 0 \infty a i f (x - x 0) i = \sum i = 0 \infty f ( i ) ( x 0 ) i ! f (x - x 0) i

$f(x) = \sum_{i=0}^{\infty} a_if(x - x_0)^i = \sum_{i=0}^{\infty} \frac {f^{(i)}(x_0)} {i!}f(x - x_0)^i$

称为 $f(x)$ 在 $x_0$ 的泰勒级数，系数称为泰勒系数。当 $x_0 = 0$ 时，称为麦克劳林级数。

牛顿法求根

牛顿法的求根方法其实就是泰勒公式的一阶展开。

首先平方根的函数 $y=\sqrt{x}$ 构造以 $y$ 为自变量的函数

f (y) = y 2 - x

$f(y) = y^2 - x$
将其按照泰勒公式进行一阶展开后，得到

f (y) = f (y 0) + f' (y 0) (y - y 0) = 0

$f(y) = f(y_0) + f'(y_0)(y-y_0) = 0$
移项后得到

y = y 0 - f ( y 0 ) f ' ( y 0 )

$y = y_0 - \frac {f(y_0)} {f'(y_0)}$
因此得到一阶展开后的通项公式

y n + 1 = y n - f ( y n ) f ' ( y n )

$y_{n+1} = y_n - \frac {f(y_n)} {f'(y_n)}$
将公式带入后，得到

y n + 1 = y n - y 2 n - x 2 y n = 1 2 (y n - x y n)

$y_{n+1} = y_n - \frac {y_n^2 - x} {2y_n} = \frac 1 2(y_n - \frac x y_n)$

double sqrt(double x){
    double y = 1.0;
    while(fabs(y * y - x) >= 1e-9){
        y = 0.5 * (y - x / y ); // 对应上面的公式
    } 
    return y;
}

牛顿法求平方根倒数

魔数的平方根倒数算法。

float Q_rsqrt( float number )
{
    long i;
    float x2, y;
    const float threehalfs = 1.5F;
    x2 = number * 0.5F;
    y  = number;
    i  = * ( long * ) &y;                       // evil floating point bit level hacking
    i  = 0x5f3759df - ( i >> 1 );               // what the fuck?
    y  = * ( float * ) &i;
    y  = y * ( threehalfs - ( x2 * y * y ) );   // 1st iteration 
    //y  = y * ( threehalfs - ( x2 * y * y ) );   // 2nd iteration, this can be removed
    return y;
}

首先求平方根的倒数 $y=\frac{1}{\sqrt{x}}$ 可以构造以y为自变量的函数，由如下函数表示

f (y) = 1 y 2 - x = 0

$f(y)=\frac{1}{y^2}-x=0$
其一阶泰勒展开的通项公式为

y n + 1 = y n - f ( y n ) f ' ( y n ) = y n ( 3 - x y 2 n ) 2 = y n (1.5 - x y 2 n 2)

$y_{n+1} = y_{n} - \frac{f(y_n)}{f'(y_n)} = \frac{y_{n}(3-xy_n^2)}{2} = y_{n}(1.5-\frac{xy_n^2}{2})$
该公式对应的代码为 y = y * ( threehalfs - ( x2 * y * y ) )，但是由于那个魔数的存在，它只需要迭代一轮。

梯度

假设函数 $u = f(x,y,z)$ 在 $p(x,y,z)$ 可微，那么

$f_x(x,y,z)$ 是函数在x轴上的变化率
$f_y(x,y,z)$ 是函数在y轴上的变化率
$f_z(x,y,z)$ 是函数在z轴上的变化率

方向导数就是函数在任意一个方向上的变化率。于是产生一个问题：函数沿着哪个方向变化的时候能够取得最大值？

求解：函数 $u = f(x,y,z)$ 在沿着向量 $\vec{l}$ 的方向导数为

φ u φ l = φ u φ x c o s α + φ u φ y c o s β + φ u φ z c o s γ = (φ u φ x, φ u φ y, φ u φ z) (c o s α, c o s β, c o s γ) = g ⃗ * k ⃗ = | g ⃗ | * | k ⃗ | c o s θ

$\begin{eqnarray*} && \frac {\varphi u} {\varphi l} = \frac {\varphi u} {\varphi x} cos \alpha + \frac {\varphi u} {\varphi y} cos \beta + \frac {\varphi u} {\varphi z} cos \gamma \\ && = (\frac {\varphi u} {\varphi x}, \frac {\varphi u} {\varphi y}, \frac {\varphi u} {\varphi z})(cos \alpha, cos \beta, cos \gamma) \\ && = \vec{g}*\vec{k} \\ && = |\vec{g}|*|\vec{k}|cos \theta \end{eqnarray*}$
其中

θ $\theta$ 表示向量k和向量g的夹角，已知向量k的模为1，所以当

θ=0 $\theta = 0$ ，即向量k和向量g的方向一致时，方向导数取得最大值，最大为

|g⃗ | $|\vec{g}|$

因此，梯度是一个矢量，它表示函数沿着该矢量的方向导数能够取得最大值，最大值为该矢量的模。

g r a d = {φ u φ x, φ u φ y, φ u φ z}

$grad = \{ \frac {\varphi u} {\varphi x}, \frac {\varphi u} {\varphi y}, \frac {\varphi u} {\varphi z} \}$

梯度下降

设损失函数为

L = - \sum x y i (w x i + b)

$L = -\sum_x y_i(wx_i+b)$

沿着梯度的方向，函数可以取得极大值，因此梯度下降的公式为

w \leftarrow w - α φ L φ w = w + η \sum x y i x i b \leftarrow b - α φ L φ b = b + η \sum x y i

$w \leftarrow w - \alpha \frac {\varphi L} {\varphi w} = w + \eta \sum_x y_ix_i\\ b \leftarrow b - \alpha \frac {\varphi L} {\varphi b} = b + \eta \sum_xy_i$

其中的 $\eta$ 表示步长，或者叫学习率，用来表示每次更新的程度。

缺点：每次迭代都需要计算全部的数据集，当数据集非常大的时候，计算效率就非常低。