假如你正在实现一个全连接层,全连接层的输入形状是7 \times 87×8,输出形状是7 \times 17×1,其中7是批量大小,则权重参数ww和偏置参数bb的形状分别是8x1和1x1
softmax回归是一种单层神经网络
直接使用输出层的输出有两个问题:
一方面,由于输出层的输出值的范围不确定,我们难以直观上判断这些值的意义。
另一方面,由于真实标签是离散值,这些离散值与不确定范围的输出值之间的误差难以衡量。
softmax运算符(softmax operator)解决了以上两个问题。它通过下式将输出值变换成值为正且和为1的概率分布:
y1,y2,y^3=softmax(o1,o2,o3)
其中
y1=exp(o1)∑3i=1exp(oi),y2=exp(o2)∑3i=1exp(oi),y^3=exp(o3)∑3i=1exp(oi).
argmaxioi=argmaxiy^i
因此softmax运算不改变预测类别输出。