softmax函数_交叉熵损失函数和Softmax

最新推荐文章于 2024-05-13 20:32:49 发布

weixin_39610594

最新推荐文章于 2024-05-13 20:32:49 发布

阅读量319

点赞数

文章标签： softmax函数交叉熵损失函数公式交叉熵损失函数的理解

什么是交叉熵损失函数

为了理解什么是交叉熵，首先我们得了解信息量，熵，相对熵等一系列概念；

信息量

一条信息的不确定性越大，那么信息量越大，这个用通俗的语言很好解释：你跟别人讲，明天太阳从东边出来，别人会说你说了一句废话，这是个确定的事情，没有信息量；微博上杨超越晒出照片有一个烟盒，大家就会说信息量好大了，因为此时杨超越抽不抽烟还是不确定的。

熵

熵是信息量的期望值。和我们在热力学中理解的混乱程度也是一样的，越不确定，越混乱；

相对熵

相对熵用来衡量两个分布的的差异，值越小越接近；

交叉熵

由相对熵推导得到，其实本质是一样的，差值是常量，因此也能用来恒量分布的差异；具体推导可以参考交叉熵同时这篇文章也分析了为什么在分类中要使用交叉熵损失而不是用MSE，原因是在使用了激活函数后，交叉熵可以保证当误差越大时，梯度越大，那么就学的越快；MSE是相反的。

二分类问题

注意二分类也是分类，但是二分类的交叉熵本质和多分类是一样的，所以说逻辑回归的损失函数，本质上和交叉熵是一样的参考交叉熵损失函数

交叉熵和最大似然估计

最大似然估计是基于我们的观测情况，来得到分布的参数；很多情况下，我们可以看到，分类问题的损失函数是直观利用最大似然估计给出的，但是在机器学习的损失函数这里，二者本质是一样的

Softmax

softmax是用来进行多分类，可以将多个值输出到[0,1]之间，并且保证和是0，很符合概率分布；softmax也可以很为是一个激活函数，和普通sigmoid激活函数不同的是，它的输出是一个向量，其实二者本质也是一样的，在二分类的时候，softmax就退化成为sigmoid，具体推导可以参考Sigmoid和Softmax的关系如果我们最后一层加入的损失函数是softmax，那么就是在做多分类，得到的输出也符合一个概率分布，此时我们就可以使用交叉熵或者最大似然估计，很容易得到模型的损失函数，比如在没加任何优化的word2vec模型就是这样的。

weixin_39610594

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
softmax函数_交叉熵损失函数和Softmax

什么是交叉熵损失函数为了理解什么是交叉熵，首先我们得了解信息量，熵，相对熵等一系列概念；信息量一条信息的不确定性越大，那么信息量越大，这个用通俗的语言很好解释：你跟别人讲，明天太阳从东边出来，别人会说你说了一句废话，这是个确定的事情，没有信息量；微博上杨超越晒出照片有一个烟盒，大家就会说信息量好大了，因为此时杨超越抽不抽烟还是不确定的。熵熵是信息量的期望值。和我们在热力学中理解的混乱程度也...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。