花书笔记：第04章数值计算

最新推荐文章于 2024-07-26 06:30:00 发布

努力呀。。。

最新推荐文章于 2024-07-26 06:30:00 发布

阅读量73

点赞数

分类专栏：深度学习(花书)——学习笔记文章标签：深度学习人工智能

本文链接：https://blog.csdn.net/qq_38837314/article/details/118442824

版权

7 篇文章 0 订阅

订阅专栏

数值计算通常通过 迭代更新 解的 估计值 来解决数学问题。

$函数\quad f(x)=A^{-1}x\quad A可以进行特征值分解，条件数为：\max_{i,j}|\frac{\lambda_i}{\lambda_j}|$

在深度学习中，我们通常会定义一个 目标函数 $f (x)$ 来表示这个模型相对于 期望值 的误差。并想办法优化误差，期望能够找到 $x_i$ 是 $f (x)$ 的值能够最小。梯度下降法(gradient descent)是最常用的优化方法。
梯度下降法(gradient descent)

$x'=x-\epsilon\nabla_xf(x)$
以二维为例，此时梯度维倒数。 $f^{'} (x)$ 为 $f (x)$ 的斜率。从下图可以看出，当 $x$ 朝 $f^{'} (x)$ 的反方向慢慢移动时，将会越来越接近 $f (x)$ 取得最小值的 $\pmb{x'}$ 。推广至多维空间时，向逆梯度方向移动可以慢慢找到极小点， $\pmb{\epsilon}$ 为学习率(learning rate）用与控制 $x$ 的移动速度。

众多周知，函数有时会存在多个极小值，因此梯度下降并不能保证一定能找到全局最小点(如下图所示)。所以只要最后找到的解使得目标函数 $f (x)$ 显著的低，并且模型效果达到要求就好。

Jacobian矩阵：输入和输出都为向量的函数的所有偏导数即梯度。
$\pmb{f}:\mathbb{R}^m→\mathbb{R}^n; \quad \pmb{J}_{i,j}=\frac{\partial}{\partial x_j}f(x)_i\quad \pmb{J}∈\mathbb{R}^{n×m}$
Hessian矩阵：Jacobian矩阵是一阶倒数，计算的是梯度；Hessian 是二阶导数，等价于梯度的Jacobian矩阵。
$\pmb{H}(f)(x)_{i,j}=\frac{\partial^2}{\partial x_i\partial x_j}f(x)$
1. 可以通过Hessian矩阵 和 二阶泰勒级数预期下一个梯度下降性能表现得多好。
2. 在临界处( $\nabla_xf(x)=0$ )，Hessian是正定的(特征值都为正)，该临界点为局部极小点；Hessian是负定的(特征值都为负)，该临界点为局部极大点。
梯度下降和牛顿法
1. 梯度下降使用梯度进行优化，属于一阶优化算法。牛顿法使用Hessian矩阵进行优化属于二阶最优化算法。
2. 牛顿法迭代更新可以更快的到达临界点，但该临界点也有可能是鞍点(有害的)，所以当附近的临界点是最小点时(Hessian是正定的) 牛顿法才适用。
3. 梯度下降速度可能没有牛顿法快，但其不容易被吸引到鞍点。

优化目标
$最小化\quad f(x)=\frac{1}{2}||\pmb{A}x-\pmb{b}||_2^2$
在二维空间中，可以看作找一条最优直线，使直线到各点的距离最短。
法1：梯度下降

1）求梯度
$\nabla_xf(x)=A^T(Ax-b)=A^TAx-A^Tb$
2）梯度下降算法

法2：牛顿法

由于真实函数是二次的，牛顿法的二次近似是精确的，所以该算法会在迭代一次后收敛到全局最小。
$x^*=\frac{A^Tb}{A^TA}$

$最小化\quad f(x)=\frac{1}{2}||\pmb{A}x-\pmb{b}||_2^2; \quad(约束：x^Tx\leq1)$

关注