首先,看看在网络结构里的位置。
为什么softmax是这种形式。
首先,我们知道概率有两个性质:
1)预测的概率为非负数;
2)各种预测结果概率之和等于1。
从图的样子上看,和普通的全连接方式并无差异,但激励函数的形式却大不一样。
首先后面一层作为预测分类的输出节点,每一个节点就代表一个分类,如图所示,那么这7个节点就代表着7个分类的模型,任何一个节点的激励函数都是:
其中就是节点 i 的下标次序,而,也就说这是一个线性分类器的输出作为自然常数的指数。最有趣的是最后一层有这样的特性:
熵的本质是香农信息量的期望。
也就是说最后一层的每个节点的输出值的加和是1。
更详细的过程见:为什么是SoftMax? - 数据科学之美 - SegmentFault 思否