softmax损失函数

vivisol

已于 2023-03-14 09:47:06 修改

阅读量441

点赞数

文章标签：机器学习 python 人工智能

于 2023-03-14 09:44:59 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/vivisol/article/details/129517299

版权

假设共有 $K$ 个类别，第 $i$ 个类别对应的得分为 $z_i$ （可以理解为某个输入样本的第个输出）。

softmax 模型的前向传播就是将输入的得分通过 softmax 运算，变成 $K$ 个概率值。具体来说，就是先对每个得分取指数，再除以所有得分指数的和，最后得到的 $K$ 个数值在 0 到 1 之间（即概率值），且它们的和等于 1。其数学表达式如下：
$\hat{y_i}=softmax(z_i)=\frac{e^{z_i}}{\sum^K_{j=1}e^{z_j}}$

其中 $\hat{y_i}$ 为模型对第 $i$ 个类别的预测值。

对于一个有标记的样本 $(x, y)$ ，假设其正确的类别为第 $i$ 个（即）。则我们希望模型对该样本的预测值 $\hat{y_i}$ 把概率值尽可能地靠近 1，而把其他类别的概率值尽可能地靠近 0。

那么我们可以设计一个交叉熵损失函数来量化模型的预测值和真实值之间的误差。交叉熵可以理解为两个分布之间的距离度量，它在分类问题中被广泛应用。

具体来说，该损失函数可以表示为： $L(y,z)=-\sum^K_{j=1}y_j\log{\hat{y_j}}$

其中 $y$ 为一个一维的 $K$ 维向量，对于正确的类别 $i$ 位置上的值为 1，其他位置上的值为 0。 $\hat{y_i}$ 为 softmax 函数的结果。

对于所有的样本，我们希望整个模型的损失函数取到最小值。因此，我们可以对模型的所有参数（包括权重和偏置）进行梯度下降求解。

最终，我们的目标就是通过不断地迭代训练数据，让模型的 softmax 计算得到的概率值尽可能地接近真实标记，而并不是最大化概率值。因此，我们会使用交叉熵损失函数来约束模型的参数学习过程。

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
softmax损失函数

最终，我们的目标就是通过不断地迭代训练数据，让模型的 softmax 计算得到的概率值尽可能地接近真实标记，而并不是最大化概率值。那么我们可以设计一个交叉熵损失函数来量化模型的预测值和真实值之间的误差。对于所有的样本，我们希望整个模型的损失函数取到最小值。具体来说，就是先对每个得分取指数，再除以所有得分指数的和，最后得到的。个数值在 0 到 1 之间（即概率值），且它们的和等于 1。把概率值尽可能地靠近 1，而把其他类别的概率值尽可能地靠近 0。位置上的值为 1，其他位置上的值为 0。
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。