今天用tensorflow的代码的时候,看到了tensorflow中计算cross
entropy方法的,不由得赞叹起来开发人员的巧妙构思。顺便捋了一下sigmoid/softmax指数运算溢出问题的解决方法。
sigmoid和softmax函数在计算中,都会用到指数运算 e − x e^{-x} e−x或者 e x e^{x} ex,这个时候,如果前一步计算得到的 x x x非常小或者非常大的时候,都有溢出的风险,同时在计算cross entropy的时候,也要考虑下溢出,因为如果softmax分子太小近似为0,前面取log也是一个近似于无穷小的数,也会造成精度的减少。
而同时sigmoid和softmax本身就是一个在0~1之间的值,所以可以看到这种溢出只是一种中间过程,对于结果来说并不会有溢出,来看下如何去解决这个问题
-
对于sigmoid的计算,则可以分成一个判断
a. 如果 x > 0 x>0 x>0则 y = 1 1 + e − x y=\frac{1}{1+e^{-x}} y=1+e−x1
b. 如果 x < 0 x<0 x<0则 y = e x 1 + e x y=\frac{e^x}{1+e^x} y=1+exex -
对于sigmoid的log计算(如cross entropy):
a. label 记为z
b. c r o s s e n t r o p y = z × − log ( s i g m o i d ( x ) ) + ( 1 − z ) × − log ( 1 − s i g m o i d ( x ) ) = z × − log ( 1 1 + e − x ) + ( 1 − z ) ∗ − log ( e − x 1 + e − x ) = z × log ( 1 + e − x ) + ( 1 − z ) × ( − log ( e − x ) + log ( 1 + e − x ) ) = z × log ( 1 + e − x ) + ( 1 − z