《深度学习》第4章数值计算

最新推荐文章于 2020-08-11 22:23:41 发布

TifaBest

最新推荐文章于 2020-08-11 22:23:41 发布

阅读量551

点赞数

分类专栏：读后笔记文章标签：人工智能神经网络

本文链接：https://blog.csdn.net/Tifa_Best/article/details/83419846

版权

读后笔记专栏收录该内容

24 篇文章 0 订阅

订阅专栏

《深度学习》第4章数值计算

数值计算通过迭代过程更新解的估计值来解决数学问题，而不是通过解析过程推导出公式来提供正确解。

常见的操作有优化和线性方程组的求解

上溢和下溢

必须对上溢和下溢进行数值稳定的一个例子是softmax函数。可通过计算softmax( $z=x-\max_ix_i$ )同时解决softmax函数分母的上溢和下溢问题。使用单独的logsoftmax函数来解决softmax函数分子的下溢问题。

病态条件

条件数表征函数相对于输入的微小变化而变化的快慢程度，即最大和最小特征值的模之比：
$\max \limits_ {i,j}\left|\frac{\lambda_i}{\lambda_j}\right|$

基于梯度的优化方法

$x^* = \arg\min f(x)$

微积分和优化的联系。

梯度之上：Jacobian和Hessian矩阵

函数 $f:\mathbb R^m \to \mathbb R^n$ ，其Jacobian矩阵 $\in \mathbb R^{n\times m}$ 定义为 $J_{i,j} = \frac{\partial}{\partial x_j}f(x)_i$

函数 $f:\mathbb R^m \to \mathbb R$ ， $f$ 的一阶导数（关于 $x_j$ ）关于 $x_j$ 的导数记为 $\frac{\partial^2}{\partial x_i \partial x_j}f$

Hessian矩阵$H(f)(x)定义为：
$H(f)(x)_{x,j} = \frac{\partial^2}{\partial x_i \partial x_j} f(x)$

因为Hessian矩阵是实对称的，可将其分解为一组实特征值和一组特征向量的正交基。在特定方向 $d$ 上的二阶导数可以写成 $d^⊤Hd$ 当 $d$ 是 $H$ 的一个特征向量时,这个方向的二阶导数就是对应的特征值。对于其他的方向 $d$ ,方向二阶导数是所有特征值的加权平均, 权重在 $0$ 和 $1$ 之间,且与 $d$ 夹角越小的特征向量的权重越大。最大特征值确定最大二阶导数,最小特征值确定最小二阶导数。

$\approx f(x^{(0)} + (x-x^{(0)})^\top g+\frac 12(x-x^{(0)})^\top H(x-x^{(0)}))$

使用学习率 $\epsilon$ ，新点将是 $x^{(0)}-\epsilon g$ ：
$f(x^{(0)}-\epsilon g) \approx f(x^{(0)} - \epsilon g^\top g+\frac 12 \epsilon^2 g^\top H g)$

当 $g^\top Hg$ 为零或负时,近似的泰勒级数表明增加 $\epsilon$ 将永远使 $f$ 下降。当 $g^\top Hg$ 为正时,通过计算可得,使近似泰勒级数下降最多的最优步长为
$\epsilon^* = \frac{g\top g}{g \top H g}$

最坏的情况下, $g$ 与 $H$ 最大特征值 $\lambda_{\max}$ 对应的特征向量对齐,则最优步长是 $\frac{1}{\lambda_{\max}}$

单纯使用梯度下降会在优化形如长峡谷的函数时浪费太多时间在峡谷壁下降上

牛顿法:
牛顿法原用于迭代求解函数的零点,因函数取极值的点处的导数值为0，故可用牛顿法求解优化问题。
函数临界点:
$x^* = x^{(0)} - H(f)(x^{(0)})^{-1}\nabla_xf(x^{(0)})$

约束优化

Karush-Kuhn-Tucker(KKT)方法（加入不等式的拉格朗日乘数法）是针对约束优化非常通用的解决方案
$L(x,\lambda,\alpha) = f(x) + \sum_i\lambda_i g^{(i)}(x) + \sum_j \alpha_jh^{(j)}(x)$
求解
$\min_x\max_\lambda\max_{\alpha,\alpha \geq 0}L(x,\lambda,\alpha)$