softmax损失函数

假设共有 K K K 个类别,第 i i i 个类别对应的得分为 z i z_i zi(可以理解为某个输入样本的第 个输出)。

softmax 模型的前向传播就是将输入的得分通过 softmax 运算,变成 K K K 个概率值。具体来说,就是先对每个得分取指数,再除以所有得分指数的和,最后得到的 K K K 个数值在 0 到 1 之间(即概率值),且它们的和等于 1。其数学表达式如下:
y i ^ = s o f t m a x ( z i ) = e z i ∑ j = 1 K e z j \hat{y_i}=softmax(z_i)=\frac{e^{z_i}}{\sum^K_{j=1}e^{z_j}} yi^=softmax(zi)=j=1Kezjezi

其中 y i ^ \hat{y_i} yi^为模型对第 i i i 个类别的预测值。

对于一个有标记的样本 ( x , y ) (x,y) (x,y) ,假设其正确的类别为第 i i i 个(即 )。则我们希望模型对该样本的预测值 y i ^ \hat{y_i} yi^ 把概率值尽可能地靠近 1,而把其他类别的概率值尽可能地靠近 0。

那么我们可以设计一个交叉熵损失函数来量化模型的预测值和真实值之间的误差。交叉熵可以理解为两个分布之间的距离度量,它在分类问题中被广泛应用。

具体来说,该损失函数可以表示为: L ( y , z ) = − ∑ j = 1 K y j log ⁡ y j ^ L(y,z)=-\sum^K_{j=1}y_j\log{\hat{y_j}} L(y,z)=j=1Kyjlogyj^

其中 y y y 为一个一维的 K K K 维向量,对于正确的类别 i i i 位置上的值为 1,其他位置上的值为 0。 y i ^ \hat{y_i} yi^为 softmax 函数的结果。

对于所有的样本,我们希望整个模型的损失函数取到最小值。因此,我们可以对模型的所有参数(包括权重和偏置)进行梯度下降求解。

最终,我们的目标就是通过不断地迭代训练数据,让模型的 softmax 计算得到的概率值尽可能地接近真实标记,而并不是最大化概率值。因此,我们会使用交叉熵损失函数来约束模型的参数学习过程。

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值