【花书】chapter4：数值计算

最新推荐文章于 2024-07-06 15:38:54 发布

巧克力酱人

最新推荐文章于 2024-07-06 15:38:54 发布

阅读量149

点赞数

分类专栏：花书文章标签：深度学习

本文链接：https://blog.csdn.net/weixin_41179697/article/details/113998609

版权

花书专栏收录该内容

5 篇文章 0 订阅

订阅专栏

4.1 上溢和下溢

在计算机中表示实数时，几乎总会引入一些误差。
下溢是一种舍入误差，当接近0的数被四舍五入为0时发生下溢。
上溢是一种极具破坏力的数值错误形式，当大量级的数被近似为 $\infty或-\infty$ 时发生上溢。进一步的运算会使这些无限值变为数字。
必须对上溢和下溢进行数值稳定的一个例子是softmax函数:
$softmax(x)_i = \frac{\exp(x_i)}{\sum_{j=1}^n\exp(x_j)}$
可能会导致上溢和下溢，解决方法是 $z = x-\max_ix_i$ .这样exp的参数最大为0，排除了上溢的可能性，同样地，分母中至少有一个值为1的项，排除了因分母下溢而导致被0除的可能性。

4.2 病态条件

条件数表征函数对于输入的微小变化而变化的快慢程度。输入被轻微扰动而迅速改变的函数对于科学计算可能是有问题的，因为输入中的舍入误差可能导致输出的巨大变化。
函数 $A^{-1}x.当A\in\mathbb R^{n\times n}$ 具有特征值分解时，其条件数为 $\max_{i,j}|\frac{\lambda_i}{\lambda_j}|$ 这是最大和最小特征值的模之比。当该数很大时，矩阵求逆对输入的误差特别敏感。

4.3 基于梯度的优化方法

优化指的是改变x以最小化或最大化某个函数f(x)的任务。最大化优化可由最小化算法最小化-f(x)来实现。
最大化或最小化的函数称为目标函数或准则。当对其进行最小化时，也称为代价函数、损失函数或误差函数。
使用上标*来表示最小化或最大化函数的x值。如 $x^* = \argmin f(x)$
根据函数导数表明如何缩放输入的小变化才能在输出获得相应的变化： $f(x+\epsilon) \approx f(x)+\epsilon f^{'}(x)$ .
当导数为0的时候，这个点称为临界点或驻点。

使f(x)取得绝对的最小值（相对其他所有值）的点是全局最小点。函数可能只有一个全局最小点或存在多个全局最小点，还可能存在不是全局最优的局部极小点。
我们经常最小化具有多维输入的函数： $f:\mathbb R^n \rightarrow \mathbb R$ .为了使最小化的概念有意义，输出必须是一维的（标量）。
针对具有多维输入的函数，需要使用偏导数。偏导数 $\frac{\partial}{\partial x_i}f(x)$ 衡量点x处只有 $x_i$ 增加时f(x)如何变化。
梯度是相对一个向量求导的导数:f的导数是包含所有偏导数的向量，记为 $\nabla_xf(x)$ .梯度的第i个元素是f关于 $x_i$ 的偏导数。多数情况下，临界点是梯度中所有元素都为0的点。
在 $u$ （单位向量）方向的方向导数是函数f在u方向的斜率。也就是说，方向导数是函数 $f(x+\alpha u)$ 关于 $\alpha$ 的导数（在 $\alpha=0$ 时获得）。使用链式法则，当 $\alpha=0$ 时， $\frac{\partial}{\partial \alpha}f(x+\alpha u) = u^T\nabla_xf(x)$ .
为了最小化f，希望找到f下降最快的方向。计算方向导数：
$\min_{u,u^Tu =1}u^T\nabla_xf(x) = \min_{u,u^Tu =1}||u||_2||\nabla_xf(x) ||_2\cos\theta\\\theta是u与梯度的夹角。将||u||_2=1代入，并忽略与u无关的项，简化得到\\\min_u\cos\theta.这在u与梯度方向相反时取最小值。$
也就是说，梯度向量指向上坡，负梯度向量指向下坡。我们在负梯度方向上移动可以减小f，这被称为最速下降或梯度下降。
梯度下降建议新的点为 $x^{'} = x-\epsilon\nabla_xf(x)$
其中 $\epsilon为学习率。梯度下降在梯度的每一个元素为0时收敛。$

4.4 约束优化

有时候，在x的所有可能值下最大化或最小化一个函数f(x)不是我们希望的，相反，我们希望在x的某些集合S中找f(x)的最大值或最小值，这被称为约束优化。在约束优化术语中，集合S中的点x被称为可行点。
约束优化的一个简单方法是将约束考虑在内后简单地对梯度下降进行修改。
一个更复杂的方法是设计一个不同的、无约束的优化问题，其解可以转化为原始约束优化的问题

4.5 实例最小二乘法

假设我们想找到最小化下式的x值：
$=\frac{1}{2}||Ax-b||_2^2$
怎么使用基于梯度的优化来解决这个问题呢？
首先计算梯度：
$\nabla_xf(x) = A^T(Ax-b) = A^TAx-A^Tb$
然后我们可以采用小的步长，并按照这个梯度下降。见下面算法：
（其实就是寻找梯度为0的点，或者找到一个可以接受的区间，不断地通过梯度更新x的取值）
现在假设我们希望最小化同样的函数，但受 $x^Tx\leq1$ 的约束。引入Lagrangian：
$L(x,\lambda) = f(x)+\lambda(x^Tx-1)$
现在需要解决：
$\min_x\max_{\lambda,\lambda \geq 0}L(x,\lambda)$
关于x对Lagrangian进行微分：
$A^TAx-A^Tb+2\lambda x = 0\\\Rightarrow x = (A^TA+2 \lambda I )^{-1}A^Tb\\\lambda的选择必须服从约束，可以关于\lambda进行梯度上升找到这个值。观察\\\frac{\partial}{\partial \lambda}L(x,\lambda) = x^Tx-1$
当x的范数超过1时，该导数是正的，所以为了跟随导数上坡并相对 $\lambda$ 增加Lagrangian，需要增加 $\lambda$ 。因为 $x^Tx$ 的惩罚系数增加了，求解关于x的线性方程现在将得到具有较小范数的解。求线性方程和调整 $\lambda$ 的过程将一直持续到x具有正确的范数并且关于 $\lambda$ 的导数为0.

？？？？？？？

巧克力酱人

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
【花书】chapter4：数值计算

4.1 上溢和下溢在计算机中表示实数时，几乎总会引入一些误差。下溢是一种舍入误差，当接近0的数被四舍五入为0时发生下溢。上溢是一种极具破坏力的数值错误形式，当大量级的数被近似为∞或−∞\infty或-\infty∞或−∞时发生上溢。进一步的运算会使这些无限值变为数字。必须对上溢和下溢进行数值稳定的一个例子是softmax函数:softmax(x)i=exp⁡(xi)∑j=1nexp⁡(xj)softmax(x)_i = \frac{\exp(x_i)}{\sum_{j=1}^n\exp(x_j)
复制链接

扫一扫