softmax单元_三分钟带你对 Softmax 划重点

最新推荐文章于 2024-06-03 12:46:54 发布

小虾汉斯

最新推荐文章于 2024-06-03 12:46:54 发布

阅读量759

点赞数

文章标签： softmax单元

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_34392511/article/details/111965174

版权

本文详细介绍了Softmax函数在多分类问题中的作用，包括其将连续数值转换为概率分布的功能，以及如何处理数值溢出问题。接着，文章探讨了Softmax损失函数的推导，并通过实例展示了两种反向传播求导方法：嵌套循环和矩阵运算。实验证明，矩阵运算在速度上有显著优势。最后，文章提到了Softmax与SVM的区别，以及正则化参数λ对Softmax的影响，并给出了在CIFAR-10数据集上的应用示例。

摘要由CSDN通过智能技术生成

1. 什么是Softmax

Softmax 在机器学习和深度学习中有着非常广泛的应用。尤其在处理多分类(C > 2)问题，分类器最后的输出单元需要Softmax 函数进行数值处理。关于Softmax 函数的定义如下所示：

其中，Vi 是分类器前级输出单元的输出。i 表示类别索引，总的类别个数为 C。Si 表示的是当前元素的指数与所有元素指数和的比值。Softmax 将多分类的输出数值转化为相对概率，更容易理解和比较。我们来看下面这个例子。

一个多分类问题，C = 4。线性分类器模型最后输出层包含了四个输出值，分别是：

经过Softmax处理后，数值转化为相对概率：

很明显，Softmax 的输出表征了不同类别之间的相对概率。我们可以清晰地看出，S1 = 0.8390，对应的概率最大，则更清晰地可以判断预测为第1类的可能性更大。Softmax 将连续数值转化成相对概率，更有利于我们理解。

实际应用中，使用 Softmax 需要注意数值溢出的问题。因为有指数运算，如果 V 数值很大，经过指数运算后的数值往往可能有溢出的可能。所以，需要对 V 进行一些数值处理：即 V 中的每个元素减去 V 中的最大值。

相应的python示例代码如下：

scores = np.array([123, 456, 789]) # example with 3 classes and each having large scores

scores -= np.max(scores) # scores becomes [-666, -333, 0]

p = np.exp(scores) / np.sum(np.exp(scores))

2. Softmax 损失函数

我们知道，线性分类器的输出是输入 x 与权重系数的矩阵相乘：s = Wx。对于多分类问题，使用 Softmax 对线性输出进行处理。这一小节我们来探讨下 Softmax 的损失函数。

其中，Syi是正确类别对应的线性得分函数，Si 是正确类别对应的 Softmax输出。

由于 log 运算符不会影响函数的单调性，我们对 Si 进行 log 操作：

我们希望 Si 越大越好，即正确类别对应的相对概率越大越好，那么就可以对 Si 前面加个负号，来表示损失函数：

对上式进一步处理，把指数约去：

这样，Softmax 的损失函数就转换成了简单的形式。

举个简单的例子，上一小节中得到的线性输出为：

假设 i = 1 为真实样本，计算其损失函数为：

最低0.47元/天解锁文章

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
softmax单元_三分钟带你对 Softmax 划重点

1. 什么是SoftmaxSoftmax 在机器学习和深度学习中有着非常广泛的应用。尤其在处理多分类(C > 2)问题，分类器最后的输出单元需要Softmax 函数进行数值处理。关于Softmax 函数的定义如下所示：其中，Vi 是分类器前级输出单元的输出。i 表示类别索引，总的类别个数为 C。Si 表示的是当前元素的指数与所有元素指数和的比值。Softmax 将多分类的输出数值转化为相对概...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。