(笔记—深度学习)：Chapter4-数值计算

最新推荐文章于 2022-02-08 23:14:16 发布

小何尚

最新推荐文章于 2022-02-08 23:14:16 发布

阅读量281

点赞数

分类专栏：深度学习文章标签： Deep Learning Machine Learning

本文链接：https://blog.csdn.net/qq_35588560/article/details/79037766

版权

深度学习专栏收录该内容

3 篇文章 0 订阅

订阅专栏

机器学习中需要大量的数值运算，通常指的是迭代更新求解数学问题。常见的操作包括优化算法和线性方程组的求解。

1-溢出

下溢：由于计算机进行数值计算时精度有限，下溢是在四舍五入为零时发生。例如：当零做除数时，会返回非数值( $not \ a \ number,\mathrm{NaN}$ ),对零取对数则会得到 $-\infty$
上溢：当大数量级的数被近似为” $+\infty,-\infty$ ”时，进一步的运算容易导致返回（ $\mathrm{NaN}$ ）
对上溢和下溢需要进行数值稳定，例如 $softmax$ 函数:
$s o f t m a x (x i) = e x p ( x i ) \sum n j = 1 e x p ( x j )$ $\mathrm {softmax}(x_i) =\frac{exp(x_i) }{\sum_{j=1}^{n}exp(x_j)}$

若 $x_i$ 是都是很小的负数， $exp(x_i)$ 会发生下溢，分母会变为0，则最后的结果会是NaN。当 $x_i$ 是很大的正数， $exp(x_i)$ h会发生上溢，同样会导致结果未定义。这两种情况都可以通过 $\mathrm{softmax}(z), z_i = x_i -max(x_i)$ 来解决。 $z_i$ 的最大值为0，且相当于分子分母同时除以 $exp(max(x_i))$ ，并不会影响 $\mathrm{softmax}$ 的结果。
还有个小问题：在计算 $\mathrm{logsoftmax}(x)$ 时，如果先计算 $\mathrm{softmax}(x)$ ,载将其传给 $\mathrm{log}(x)$ ,分子的下溢就会导致 $\mathrm{log}(0) = -\infty$ 。因此需要以数值稳定方式同时计算 $\mathrm{logsoftmax}$ ：

l o g s o f m a x (z i) = z i - l o g (\sum j n e x p (z j))

$\mathrm{logsofmax}(z_i) = z_i - \mathrm{log}\Bigr(\sum_j^n\mathrm{exp}(z_j)\Bigr)$

2-病态条件

条件数用于表征当输入发生微小变化时，函数变化的快慢程度。
例如： $f(\boldsymbol x) =A^{-1}\boldsymbol x, 当A\in\mathbb R^{n\times n}$ 具有特征分解时，条件数为： $max|\lambda_i/\lambda_j|$ ,条件数较大时，求逆对于输入误差特别敏感。
这是矩阵本身的特性，与计算机精度无关。

3- 基于梯度下降的优化

优化是指通过改变 $x$ 来最大化或最小化函数 $f(x)$ .在深度学习中，通常都是用最小化函数拉进行优化，对于最大化任务则可以通过最小化 $-f(x)$ 来完成。表示为：

x * = a r g m i n f (x) .

$x^* = argmin f(\boldsymbol x).$

f(x) f ( x ) $f(x)$ 可以称之为 目标函数( $\mathrm {object \ function}$ ),或者准则( $\mathrm{crition}$ ), 在最小化任务中还可以称之为 损失函数( $\mathrm{loss\ function}$ )、代价函数( $\mathrm{cost \ function}$ )或误差函数( $\mathrm{error\ function}$ )。
函数的导数：

f′(x)=0 f ′ ( x ) = 0 $f'(x) = 0$ 时，

x x $x$ 称为临界点(

c r i t i c a l p o i n t

$\mathrm {critical \ point}$ )或驻点(

stationary point s t a t i o n a r y p o i n t $\mathrm{stationary\ point}$ ),这些点有可能是局部极小点、局部极大点或者鞍点。
g

x' = x - ϵ ▽ x f (x)

$x' = x - \epsilon \bigtriangledown_xf(x)$
其中

ϵ ϵ $\epsilon$ 为学习率(learning rate)，用于确定更新的步长大小。可以通过线搜索的方式选择合适的学习率，即根据几个备选

ϵ ϵ $\epsilon$ 最终所得到的目标函数的最小值，选择结果最小的那个。

Jacobian矩阵和Hessian 矩阵

小何尚

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
(笔记—深度学习)：Chapter4-数值计算

1-溢出2-病态条件3- 基于梯度下降的优化Jacobian矩阵和Hessian 矩阵机器学习中需要大量的数值运算，通常指的是迭代更新求解数学问题。常见的操作包括优化算法和线性方程组的求解。1-溢出下溢：由于计算机进行数值计算时精度有限，下溢是在四舍五入为零时发生。例如：当零做除数时，会返回非数值(not a number,NaNnot \ a \ nu
复制链接

扫一扫

专栏目录