用sigmoid函数作为神经元的激活函数时,最好使用交叉熵代价函数,以避免训练过程太慢

从方差代价函数说起

代价函数经常用方差代价函数(即采用均方误差MSE),比如对于一个神经元(单输入单输出,sigmoid函数),定义其代价函数为:

其中y是我们期望的输出,a为神经元的实际输出【 a=σ(z), where z=wx+b 】。

在训练神经网络过程中,我们通过梯度下降算法来更新w和b,因此需要计算代价函数对w和b的导数:

然后更新w、b:

w <—— w - η* ∂C/∂w = w - η * a *σ′(z)

b <—— b - η* ∂C/∂b = b - η * a * σ′(z)

因为sigmoid函数的性质,导致σ′(z)在z取大部分值时会很小(如下图标出来的两端,几近于平坦),这样会使得w和b更新非常慢(因为η * a * σ′(z)这一项接近于0)。

2.交叉熵代价函数(cross-entropy cost function)

为了克服这个缺点,引入了交叉熵代价函数(下面的公式对应一个神经元,多输入单输出):

其中y为期望的输出,a为神经元实际输出【a=σ(z), where z=∑Wj*Xj+b】

与方差代价函数一样,交叉熵代价函数同样有两个性质

  • 非负性。(所以我们的目标就是最小化代价函数)
  • 当真实输出a与期望输出y接近的时候,代价函数接近于0.(比如y=0,a~0;y=1,a~1时,代价函数都接近0)。

另外,它可以克服方差代价函数更新权重过慢的问题。我们同样看看它的导数:

可以看到,导数中没有σ′(z)这一项,权重的更新是受σ(z)−y这一项影响,即受误差的影响。所以当误差大的时候,权重更新就快,当误差小的时候,权重的更新就慢。这是一个很好的性质。

另外,交叉熵函数的形式是−[ylna+(1−y)ln(1−a)]而不是 −[alny+(1−a)ln(1−y)],为什么?因为当期望输出的y=0时,lny没有意义;当期望y=1时,ln(1-y)没有意义。而因为a是sigmoid函数的实际输出,永远不会等于0或1,只会无限接近于0或者1,因此不存在这个问题。

多类分类问题的交叉熵(输出映射为softmax


  1. 交叉熵损失(Cross Entropy Loss):假设误差是二值分布,可以视为预测概率分布和真实概率分布的相似程度。在分类问题中有良好的应用 

    CE(θ)=i=1nyilog(ŷ i)

    其中 yi 表示真实概率分布,只有 yk=1 ,而 yj=0 jk ŷ i 表示预测概率分布,设它的输入为 θi ,则 ŷ i=softmax(θi)=exp(θi)jexp(θj)

  2. 均方损失(Mean Square Loss):假设误差是正态分布,适用于线性的输出,特点是对于与真实结果差别越大,则惩罚力度越大,这并不适用于分类问题。 

    MS(θ)=1ni=1n(yiŷ i)2

    其中 ŷ i=Wθi 表示 θi 的线性输出。


交叉熵的求导过程

由于只有 yk=1 ,而 yj=0 jk ,则有 

CE(θ)====i=1nyilog(ŷ i)log(ŷ k)log(exp(θk)jexp(θj))θk+log(jexp(θj))

故 
CE(θ)θ=θkθ+θlog(jexp(θj))

而根据 θkθk=1 θkθq=0 qk ,得到 
θkθθilog(jexp(θj))==010exp(θi)jexp(θj)==yŷ i

最终得到 
CEθ=θlog(jexp(θj))θkθ=ŷ y


  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值