式3.10
exp(x)是表示ex的指数函数(e是纳皮尔常数2.7182 . . .)。式(3.10)表示假设输出层共有n个神经元,计算第k个神经元的输出yk。如式(3.10)所示,softmax函数的分子是输入信号ak的指数函数,分母是所有输入信号的指数函数的和。
def softmax(x):
exp_x = np.exp(x)
sum_exp_x = np.sum(exp_x)
y = exp_x/sum_exp_x
return y
上述代码是依据式3.10所写。
上面的softmax函数的实现虽然正确描述了式(3.10),但在计算机的运算上有一定的缺陷。这个缺陷就是溢出问题。 softmax函数的实现中要进行指数函数的运算,但是此时指数函数的值很容易变得非常大。比如, e10的值会超过20000, e100会变成一个后面有40多个0的超大值, e1000的结果会返回一个表示无穷大的inf。如果在这些超大值之间进行除法运算,结果会出现“不确定”的情况。
softmax函数的实现可以像式(3.11)这样进行改进。
式3.11
综上,我们可以像下面这样实现softmax函数:
def softmax(a):
c = np.max(a)
exp_a = np.exp(a - c) # 溢出对策
sum_exp_a = np.sum(exp_a)
y = exp_a / sum_exp_a
return y
softmax函数的输出是0.0到1.0之间的实数。并且, softmax函数的输出值的总和是1。输出总和为1是softmax函数的一个重要性质。正因为有了这个性质,我们才可以把softmax函数的输出解释为“概率”。