交叉熵损失函数与激活函数汇总

骑着蜗牛逛世界

于 2024-03-25 14:30:34 发布

阅读量194

点赞数 6

文章标签：算法人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_34514046/article/details/137008986

版权

为什么分类问题不能用均方误差(MSE)而用交叉熵

1. 从最优化的角度

MSE 函数对于一个输出范围是的数来说是凸的（标准的u型），而分类问题通常会接sigmoid或softmax，它的输出范围为。会导致损失函数变成非凸函数，有多个极值点。

2.从梯度的角度

使用MSE作为损失函数，MSE对参数的偏导受sigmoid导数的影响，会造成梯度不稳定；而CE对参数的偏导没有受到激活函数导数的影响，保证了梯度的稳定。

对均方误差损失函数而言，要得到稳定的梯度，输出不能经过激活函数，这样的情况只有线性回归，所以SE较适合做回归问题。

交叉熵与相对熵(KL散度)的关系

即A和B的KL散度=A的熵-AB的交叉熵，在机器学习中，训练数据的分布是固定的，因此最大化相对熵（KL散度）等价于最小化交叉熵

softmax激活函数通过指数函数加大差距

差距过大时，内存溢出

骑着蜗牛逛世界

关注

6
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
交叉熵损失函数与激活函数汇总

MSE 函数对于一个输出范围是的数来说是凸的（标准的u型），而分类问题通常会接sigmoid或softmax，它的输出范围为。会导致损失函数变成非凸函数，有多个极值点。而CE对参数的偏导没有受到激活函数导数的影响，保证了梯度的稳定。即A和B的KL散度=A的熵-AB的交叉熵，在机器学习中，训练数据的分布是固定的，因此最大化相对熵（KL散度）等价于最小化交叉熵。对均方误差损失函数而言，要得到稳定的梯度，输出不能经过激活函数，这样的情况只有线性回归，所以SE较适合做回归问题。1. 从最优化的角度。
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。