用sigmoid函数作为神经元的激活函数时，最好使用交叉熵代价函数，以避免训练过程太慢

最新推荐文章于 2022-09-29 11:26:28 发布

飞-舟

最新推荐文章于 2022-09-29 11:26:28 发布

阅读量5.8k

点赞数 1

分类专栏：机器学习

机器学习专栏收录该内容

12 篇文章 0 订阅

订阅专栏

从方差代价函数说起

代价函数经常用方差代价函数（即采用均方误差MSE），比如对于一个神经元（单输入单输出，sigmoid函数）,定义其代价函数为：

其中y是我们期望的输出，a为神经元的实际输出【 a=σ(z), where z=wx+b 】。

在训练神经网络过程中，我们通过梯度下降算法来更新w和b，因此需要计算代价函数对w和b的导数：

然后更新w、b：

w <—— w - η* ∂C/∂w = w - η * a *σ′(z)

b <—— b - η* ∂C/∂b = b - η * a * σ′(z)

因为sigmoid函数的性质，导致σ′(z)在z取大部分值时会很小（如下图标出来的两端，几近于平坦），这样会使得w和b更新非常慢（因为η * a * σ′(z)这一项接近于0）。

2.交叉熵代价函数（cross-entropy cost function）

为了克服这个缺点，引入了交叉熵代价函数（下面的公式对应一个神经元，多输入单输出）：

其中y为期望的输出，a为神经元实际输出【a=σ(z), where z=∑Wj*Xj+b】

与方差代价函数一样，交叉熵代价函数同样有两个性质：

非负性。（所以我们的目标就是最小化代价函数）
当真实输出a与期望输出y接近的时候，代价函数接近于0.(比如y=0，a～0；y=1，a~1时，代价函数都接近0)。

另外，它可以克服方差代价函数更新权重过慢的问题。我们同样看看它的导数：

可以看到，导数中没有σ′(z)这一项，权重的更新是受σ(z)−y这一项影响，即受误差的影响。所以当误差大的时候，权重更新就快，当误差小的时候，权重的更新就慢。这是一个很好的性质。

另外，交叉熵函数的形式是−[ylna+(1−y)ln(1−a)]而不是 −[alny+(1−a)ln(1−y)]，为什么？因为当期望输出的y=0时，lny没有意义；当期望y=1时，ln(1-y)没有意义。而因为a是sigmoid函数的实际输出，永远不会等于0或1，只会无限接近于0或者1，因此不存在这个问题。

多类分类问题的交叉熵（输出映射为softmax）

交叉熵损失（Cross Entropy Loss）：假设误差是二值分布，可以视为预测概率分布和真实概率分布的相似程度。在分类问题中有良好的应用

$C E (θ) = - \sum i = 1 n y i * log (y ̂ i)$
其中 yi 表示真实概率分布，只有 yk=1 ，而 yj=0 ， j≠k 。 ŷ i 表示预测概率分布，设它的输入为 θi ，则 ŷ i=softmax(θi)=exp(θi)∑jexp(θj)
均方损失（Mean Square Loss）：假设误差是正态分布，适用于线性的输出，特点是对于与真实结果差别越大，则惩罚力度越大，这并不适用于分类问题。

$M S (θ) = 1 n \sum i = 1 n (y i - y ̂ i) 2$
其中 ŷ i=W⋅θi 表示 θi 的线性输出。

交叉熵的求导过程

由于只有 yk=1 ，而 yj=0 ， j≠k ，则有

C E (θ) = = = = - \sum i = 1 n y i * log (y ̂ i) - log (y ̂ k) - log (exp ( θ k ) \sum j exp ( θ j )) - θ k + log (\sum j exp (θ j))

故

\partial C E ( θ ) \partial θ = - \partial θ k \partial θ + \partial \partial θ log (\sum j exp (θ j))

而根据

∂θk∂θk=1 ，

∂θk∂θq=0 ，

q≠k ，得到

\partial θ k \partial θ \partial \partial θ i log (\sum j exp (θ j)) = = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ 0 ⋮ 1 ⋮ 0 ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ exp ( θ i ) \sum j exp ( θ j ) = = y y ̂ i

最终得到

\partial C E \partial θ = \partial \partial θ log (\sum j exp (θ j)) - \partial θ k \partial θ = y ̂ - y

飞-舟

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
用sigmoid函数作为神经元的激活函数时，最好使用交叉熵代价函数，以避免训练过程太慢

从方差代价函数说起代价函数经常用方差代价函数（即采用均方误差MSE），比如对于一个神经元（单输入单输出，sigmoid函数）,定义其代价函数为：其中y是我们期望的输出，a为神经元的实际输出【 a=σ(z), where z=wx+b 】。在训练神经网络过程中，我们通过梯度下降算法来更新w和b，因此需要计算代价函数对w和b的导数：然后更新w、b：
复制链接

扫一扫