【机器学习】softmax函数总结

本文详细探讨了softmax函数,包括其定义、与交叉熵损失函数的关系、求导过程以及在解决梯度消失问题上的优势。通过分析,揭示了softmax与cross-entropy结合如何改善训练效率,并对比了与平方损失函数的差异,强调了softmax在概率分布表示和模型敏感性上的优点。
摘要由CSDN通过智能技术生成

原本以为softmax函数求导没啥难度的,结果自己写CNN的时候,梯度算的一直不对,查了半天才发现是因为softmax求导没求对。索性就开一篇Blog把softmax相关的都给记录一下。

softmax的定义

softmax函数如下:

aLj=ezLjkezLk

其可以看成sigmoid函数在多元分布中的一个推广
至于softmax这个公式具体是怎么来的呢?
可以参照广义线性模型(GLM)里,通过多项分布化成为指数分布簇的形式,就得到了softmax
相当于softmax是对于多项分布的一个刻画。
所以softmax函数所表示的可以看成为对分类结果的概率分布。

softmax和cross-entropy损失函数

正如上面所说,softmax可以看成对概率分布的一个刻画,所以既然有概率分布,就可以用cross-entropy来定义损失函数
之前的一篇Blog里讲过cross-entropy,从两个角度来考虑,一个是相当于用预测结果的分布区编码正确的结果分布,得到的编码长度,另一个角度可以看成,度量两个分布的KL距离,将其展开去掉常数项,也能得到cross-entropy
所以损失函数可以度量成:

L=jyjlnaLj

softmax的求导

softmax本身的求导如下:
ji 时,我们只用对分母求偏导就好

aLjzLi=e
  • 2
    点赞
  • 36
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值