机器学习中的数学——上溢和下溢

分类目录:《机器学习中的数学》总目录


连续数学在数字计算机上的根本困难是,我们需要通过有限数量的位模式来表示无限多的实数。这意味着我们在计算机中表示实数时,几乎总会引入一些近似误差。在许多情况下,这仅仅是舍入误差。舍入误差会导致一些问题,特别是当许多操作复合时,即使是理论上可行的算法,如果在设计时没有考虑最小化舍入误差的累积,在实践时也可能会导致算法失效。

一个极具破坏力的数值错误形式是上溢。当大量级的数被近似为 + ∞ +\infty +或-\infty$时发生上溢。进一步的运算通常会导致这些无限值变为非数字。

另一种极具毁灭性的舍入误差是下溢。当接近零的数被四舍五入为零时发生下溢。许多函数在其参数为零而不是一个很小的正数时才会表现出质的不同。例如,我们通常要避免被零除或避免取零的对数。

必须对上溢和下溢进行数值稳定的一个例子是softmax函数。softmax函数经常用于预测与Multinoulli分布相关联的概率,定义为:
Softmax ( x ) = e x i ∑ i e x i \text{Softmax}(x)=\frac{e^{x_i}}{\sum_ie^{x_i}} Softmax(x)=iexiexi

当所有 x i x_i xi都等于某个常数 c c c时会发生什么。从理论分析上说,我们可以发现所有的输出都应该为 1 n \frac{1}{n} n1。从数值计算上说,当 c c c量级很大时,这可能不会发生。如果 c c c是很小的负数, e c e^c ec就会下溢。这意味着softmax函数的分母会变成0,所以最后的结果是未定义的。当 c c c是非常大的正数时, e c e^c ec的上溢再次导致整个表达式未定义。这两个困难能通过计算 softmax ( z ) \text{softmax}(z) softmax(z)同时解决,其中 z = x − m a x i x i z=x-max_ix_i z=xmaxixi。简单的代数计算表明,softmax解析上的函数值不会因为从输入向量减去或加上标量而改变。减去 m a x i x i max_ix_i maxixi导致 e e e的最大参数为0,这排除了上溢的可能性。同样地分母中至少有一个值为1的项,这就排除了因分母下溢而导致被零除的可能性。

还有一个小问题。分子中的下溢仍可以导致整体表达式被计算为零。这意味着,如果我们在计算 log ⁡ softmax ( x ) \log\text{softmax}(x) logsoftmax(x)时,先计算softmax再把结果传给 log ⁡ \log log函数,会错误地得到 − ∞ -\infty 。相反,我们必须实现一个单独的函数,并以数值稳定的方式计算 log ⁡ softmax \log\text{softmax} logsoftmax。我们可以使用相同的技巧来稳定\log\text{softmax}$函数。

  • 6
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值