【机器学习】softmax函数总结

最新推荐文章于 2024-06-27 13:48:28 发布

哈乐笑

最新推荐文章于 2024-06-27 13:48:28 发布

阅读量1.7w

点赞数 2

分类专栏：机器学习文章标签：机器学习深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/haolexiao/article/details/72757796

版权

本文详细探讨了softmax函数，包括其定义、与交叉熵损失函数的关系、求导过程以及在解决梯度消失问题上的优势。通过分析，揭示了softmax与cross-entropy结合如何改善训练效率，并对比了与平方损失函数的差异，强调了softmax在概率分布表示和模型敏感性上的优点。

摘要由CSDN通过智能技术生成

原本以为softmax函数求导没啥难度的，结果自己写CNN的时候，梯度算的一直不对，查了半天才发现是因为softmax求导没求对。索性就开一篇Blog把softmax相关的都给记录一下。

softmax的定义

softmax函数如下：

a L j = e z L j \sum k e z L k

$a_j^L = \frac{e^{z_j^L}}{\sum_k e^{z_k^L}}$
其可以看成sigmoid函数在多元分布中的一个推广
至于softmax这个公式具体是怎么来的呢？
可以参照广义线性模型（GLM）里，通过多项分布化成为指数分布簇的形式，就得到了softmax
相当于softmax是对于多项分布的一个刻画。
所以softmax函数所表示的可以看成为对分类结果的概率分布。

softmax和cross-entropy损失函数

正如上面所说，softmax可以看成对概率分布的一个刻画，所以既然有概率分布，就可以用cross-entropy来定义损失函数
之前的一篇Blog里讲过cross-entropy，从两个角度来考虑，一个是相当于用预测结果的分布区编码正确的结果分布，得到的编码长度，另一个角度可以看成，度量两个分布的KL距离，将其展开去掉常数项，也能得到cross-entropy
所以损失函数可以度量成：

L = - \sum j y j ln a L j

$L = -\sum_j y_j\ln a_j^L$

softmax的求导

softmax本身的求导如下：
当 $j \neq i$ 时，我们只用对分母求偏导就好

\partial a L j \partial z L i = - e

最低0.47元/天解锁文章

关注

2
点赞
踩
36

收藏

觉得还不错? 一键收藏
0
评论
【机器学习】softmax函数总结

原本以为softmax函数求导没啥难度的，结果自己写CNN的时候，梯度算的一直不对，查了半天才发现是因为softmax求导没求对。索性就开一篇Blog把softmax相关的都给记录一下。softmax的定义softmax函数如下： aLj=ezLj∑kezLka_j^L = \frac{e^{z_j^L}}{\sum_k e^{z_k^L}} 其可以看成sigmoid函数在多元分布中的一个推广
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。