交叉熵损失函数学习

最新推荐文章于 2022-04-08 22:46:07 发布

yougwypf1991

最新推荐文章于 2022-04-08 22:46:07 发布

阅读量178

点赞数

分类专栏：人工智能文章标签：神经网络

本文链接：https://blog.csdn.net/kangkermit/article/details/107918485

版权

人工智能专栏收录该内容

24 篇文章 0 订阅

订阅专栏

为什么学习慢

实际生活中我们大多数不喜欢被指出错误。想象以下一位同学在开始学习弹奏钢琴不久后，在一个听众前做了处女秀。她很紧张，开始时将八度音阶的曲段演奏得很低。她很困惑，因为不能继续演奏下去了，直到有个人指出了她其中的错误。当时，她非常尴尬。不过，尽管不开心，她却能够因为明显的犯错快速地学习到正确的东西。我们相信下次她再演奏肯定会是正确的！相反，在错误的弹奏不能很好地定义的时候，学习的过程会变得更缓慢。理想地，我们希望和期待神经⽹络可以从错误中快速地学习。但是在实际应用中，人工神经元在其犯错较大的情况下其实学习很有难度，并且这种情况实际上是非常普遍的。

为了探索这个问题的源头，回忆以下神经元是通过改变权重和偏置，并以一个代价函数的偏导数( $\frac{\partial C}{\partial \omega}$ 和 $\frac{\partial C}{\partial b}$ )决定的速度学习。所以我们平常说的“学习缓慢”，实际上就是偏导数很小。假设我们的损失函数为：
$\frac{(y-\alpha)^2}{2}$
其中 $\alpha$ 为神经元的输出， $\alpha = \sigma(\omega x + b)$ ，训练输入为 $x = 1 ， y = 0$ ，应用链式法则求权重和偏置的偏导数：
$\frac{\partial C}{\partial \omega}=(\alpha -y)\sigma^{\prime}(z)x=\alpha \sigma^{\prime}(z) \\ \frac{\partial C}{\partial b}=(\alpha -y)\sigma^{\prime}(z)=\alpha \sigma^{\prime}(z)$
在这里插入图片描述
上图为 $s i g m o i d$ 函数的图像，当神经元的输出接近于1的时候，曲线变得相当平，所以 $\sigma^{\prime}$ 就会很小，这就导致梯度很小，学习缓慢。

交叉熵代价函数

在研究了 $\sigma^{\prime}$ 的特点后，我们更倾向于选择一个偏导数不包含 $\sigma$ 的代价函数。假设有一对训练样本 $x$ ，其代价函数 $C=C_x$ 满足：
$\frac{\partial C}{\partial \omega_j}=x_j(\alpha-y) \\ \frac{\partial C}{\partial b}=(\alpha -y)$
如果选择的代价函数满足上述条件，那么就能呈现这样的特性：初始误差越大，神经元学习越快。
下面我们来进行推导：
由链式法则：
$\frac{\partial C}{\partial b}=\frac{\partial C}{\partial \alpha}\sigma^{\prime}(z)$
又因为 $\sigma^{\prime}(z)=\sigma(z)(1-\sigma(z))=\alpha(1-\alpha)$ ，上式变换为：
$\frac{\partial C}{\partial b}=\frac{\partial C}{\partial \alpha}\alpha(1-\alpha)$
对比 $\frac{\partial C}{\partial b}=(\alpha -y)$ ，有：
$\alpha -y = \frac{\partial C}{\partial \alpha}\alpha(1-\alpha)$
那么：
$\frac{\partial C}{\partial \alpha} = \frac{\alpha-y}{\alpha(1-\alpha)}$
对上式关于 $\alpha$ 进行积分，得到：
$\alpha+(1-y)ln(1-\alpha)] + constance$
其中 $c o n s t a n c e$ 是常量，这是一个单独的样本对代价函数的贡献，对所有样本进行平均，得到整个代价函数：
$C=-\frac{1}{n}\sum_x[yln \alpha+(1-y)ln(1-\alpha)] + constance$

yougwypf1991

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
打赏
0
评论
交叉熵损失函数学习

目录为什么学习慢交叉熵代价函数为什么学习慢实际生活中我们大多数不喜欢被指出错误。想象以下一位同学在开始学习弹奏钢琴不久后，在一个听众前做了处女秀。她很紧张，开始时将八度音阶的曲段演奏得很低。她很困惑，因为不能继续演奏下去了，直到有个人指出了她其中的错误。当时，她非常尴尬。不过，尽管不开心，她却能够因为明显的犯错快速地学习到正确的东西。我们相信下次她再演奏肯定会是正确的！相反，在错误的弹奏不能很好地定义的时候，学习的过程会变得更缓慢。理想地，我们希望和期待神经⽹络可以从错误中快速地学习。但是在实际应用中，
复制链接

扫一扫