Softmax
softmax(x)i=exp(xi)∑jexp(xj)
aLj=ezLj∑kezLk
∑jaLj=∑jezLj∑kezLk=1
- 所有的输出激活值是正的,因为指数函数肯定是正的。结合这点以及上一段的结论,我们可以知道,从 softmax 层得到的输出是一系列相加和为 1 的正数。换言之,从 softmax 层得到的输出可以看做是一个概率分布。
- softmax 层的输出是一个概率分布的这个结论是很有价值的。在许多问题中,我们可以很方便地将输出激活值
aLj看作是神经网络认为结果是 j 的概率。比如,在 MNIST 分类问题中,我们可以将aLj看作是神经网络认为这个数字是 j 的概率估计。
交叉熵