为什么损失函数多用交叉熵entropy来计算

啊哟喂gzxb

于 2019-07-04 18:15:00 发布

阅读量224

点赞数

分类专栏：机械学习

机械学习专栏收录该内容

24 篇文章

订阅专栏

我们知道对于回归问题一般采用均方差来计算损失，这是因为回归输出的是一个实数，这样来计算一个batch中预测值与实际的均方差是自然而然的选择的，而且导数非常简单（神经网络参数的更新依据就是梯度也就是偏导），这里不再推导均方差的偏导。
但对于分类问题，输出的是一个n维的向量，向量的每个值是对应分类的概率，概率最大的就是预测的分类结果。样本的标签值也是一个概率分布，表情衡量两个概率分布之间的距离当然就是交叉熵，但是神经网络的输出又不完全符合概率分布（概率分布的基本要素：所有事件概率和为１），这样就引出的sotfmax函数，它的作用就是把输出转换成概率分布，以用来计算交叉熵损。之所以选用交叉熵还有一个重要的原因就是梯度计算简单（偏导数非常简洁，神经网络的训练是计算密集型，这样可以提高训练效率）。
z_为原始的神经网络输出，经过sotfmax转化为概率分布y_
　　在这里插入图片描述
这里写图片描述
　　损失函数交叉熵的计算公式：
　　
　　这里写图片描述
　　梯度的推导过程如下：
　　
　　这里写图片描述

看到最后的结果不是一般的简单，而是非常简单，梯度就是预测值与标签的差。所以输出是概率分布或者可以转化为概率分布的神经网络用交叉熵是非常合适的。

作者：亚当-adam
来源：CSDN
原文：https://blog.csdn.net/zhaojianting/article/details/80681096
版权声明：本文为博主原创文章，转载请附上博文链接！

博客等级

码龄7年

67
原创

32
点赞

114
收藏

6
粉丝

关注

私信

热门文章

分类专栏

最新评论

vgg16详细过程
m0_60623439: 因为这个卷积里面有参数，padding值为（1，1）的话就是在卷积后的图像里填充了一圈像素，222x222就变回了224x224，然后这个图像是RGB图像（224x224x3）最后的3是RGB上的分量，在卷积的时候是要将这三个分量加在一起操作的，所以还是64个通道
vgg16详细过程
weixin_43903485: 想问为什么224×224×3的输入用64个3×3的卷积核卷积得到的不是222×222×192？我理解的是一个224×224×1的图像用一个3×3卷积得到的是222×222×1，那224×224×3的图像就会得到222×222×3，那64个卷积核就是再×64？想问我是哪里想错了呀
标注工具xml转txt文件保存
ct123456_: 感谢！
voc_to_tfrecord
weixin_51714544: 请问188-191报错是为什么呢？NameError: name 'dataset_dir' is not defined
vgg16详细过程
1051450906: 卷积核的个数在数值上等于通道数

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。