Softmax&Overfitting&Regulization&Dropout
Softmax
另外一种类型的输出层方程:
第一步 (和之前sigmoid一样):
第二步: (和之前sigmoid不同): softmax函数
Softmax的输出每个值都是大于等于0, 而且总和等于1,所以, 可以认为是概率分布
可以认为输出的是分类等于每个可能分类标签的概率(如 P(a(x)) = 0.8 for MNIST)
如果输出层是sigmod层, 不能默认输出总和为1, 所以不能轻易描述为概率分布
不存在学习慢的问题
overfitting
在训练集上表现良好,但是在测试集上表现不好