为什么要用交叉熵作为代价函数

最新推荐文章于 2024-12-11 10:04:06 发布

Webbley

最新推荐文章于 2024-12-11 10:04:06 发布

阅读量5.4k

点赞数 8

分类专栏： Machine Learning 文章标签：交叉熵代价函数神经网络机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/liweibin1994/article/details/79510237

版权

交叉熵作为代价函数能加速神经网络学习。当模型预测错误时，其输出与标签相差越大，梯度也越大，从而更快调整参数。相较于二次平方误差，交叉熵在初期使cost下降更迅速，提高训练效率。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

对于大多数人来说，犯错是一件让人很不开心的事情。但反过来想，犯错可以让我们意识到自己的不足，然后我们很快就学会下次不能再犯错了。犯的错越多，我们学习进步就越快。

同样的，在神经网络训练当中，当神经网络的输出与标签不一样时，也就是神经网络预测错了，这时我们希望神经网络可以很快地从错误当中学习，然后避免再预测错了。那么现实中，神经网络真的会很快地纠正错误吗？

我们来看一个简单的例子：
这里写图片描述

上图是一个只有一个神经元的模型。我们希望输入1的时候，模型会输出0(也就是说，我们只有一个样本(x=1, y=0))。假设我们随机初始化权重参数w=2.0，偏置参数b=2.0。激活函数为sigmoid函数。所以模型的第一次输出为：

o u t p u t = σ (w \cdot x + b) = σ (2.0 \times 1 + 2.0) = 0.98

$output = \sigma(w \cdot x + b) = \sigma(2.0 \times 1 + 2.0) = 0.98$
可见，模型的第一次输出跟标签相差很大，很错误的一个输出。然后我们不断地使用梯度下降算法更新参数，重复训练。于是我们得到了下面这个图：
这里写图片描述

这里写图片描述

从图中可以看出，随着训练的次数增加，模型的输出越来越接近0。但是有没有发现一个问题？在训练的前部分，cost并没有显著的减少，也就是权重参数w和偏置参数b的变化不明显。我们前面说了，当我们知道错了，而且错误很大时，我们通常会很快地将错误降下来。但是图中的曲线一开始却是很缓慢地变化。这跟我们想要的不一样呀。虽然最终的结果是会收敛，但是我们希望的是在一开始训练的时候，模型可以收敛得更快。究竟是什么原因使得模型的cost在一开始的时候下降很慢呢？

我们知道在用梯度下降更新参数的时候，我们是计算了下面这两个偏导数：

\partial C \partial w \partial C \partial b

最低0.47元/天解锁文章

评论 6

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。