假设共有 K K K 个类别,第 i i i 个类别对应的得分为 z i z_i zi(可以理解为某个输入样本的第 个输出)。
softmax 模型的前向传播就是将输入的得分通过 softmax 运算,变成
K
K
K 个概率值。具体来说,就是先对每个得分取指数,再除以所有得分指数的和,最后得到的
K
K
K 个数值在 0 到 1 之间(即概率值),且它们的和等于 1。其数学表达式如下:
y
i
^
=
s
o
f
t
m
a
x
(
z
i
)
=
e
z
i
∑
j
=
1
K
e
z
j
\hat{y_i}=softmax(z_i)=\frac{e^{z_i}}{\sum^K_{j=1}e^{z_j}}
yi^=softmax(zi)=∑j=1Kezjezi
其中 y i ^ \hat{y_i} yi^为模型对第 i i i 个类别的预测值。
对于一个有标记的样本 ( x , y ) (x,y) (x,y) ,假设其正确的类别为第 i i i 个(即 )。则我们希望模型对该样本的预测值 y i ^ \hat{y_i} yi^ 把概率值尽可能地靠近 1,而把其他类别的概率值尽可能地靠近 0。
那么我们可以设计一个交叉熵损失函数来量化模型的预测值和真实值之间的误差。交叉熵可以理解为两个分布之间的距离度量,它在分类问题中被广泛应用。
具体来说,该损失函数可以表示为: L ( y , z ) = − ∑ j = 1 K y j log y j ^ L(y,z)=-\sum^K_{j=1}y_j\log{\hat{y_j}} L(y,z)=−∑j=1Kyjlogyj^
其中 y y y 为一个一维的 K K K 维向量,对于正确的类别 i i i 位置上的值为 1,其他位置上的值为 0。 y i ^ \hat{y_i} yi^为 softmax 函数的结果。
对于所有的样本,我们希望整个模型的损失函数取到最小值。因此,我们可以对模型的所有参数(包括权重和偏置)进行梯度下降求解。
最终,我们的目标就是通过不断地迭代训练数据,让模型的 softmax 计算得到的概率值尽可能地接近真实标记,而并不是最大化概率值。因此,我们会使用交叉熵损失函数来约束模型的参数学习过程。