交叉熵代价函数(损失函数)及其求导推导

转载 2018年04月15日 16:16:39

交叉熵代价函数(损失函数)及其求导推导

  1. 前言
  2. 交叉熵损失函数
  3. 交叉熵损失函数的求导

前言

说明:本文只讨论Logistic回归的交叉熵,对Softmax回归的交叉熵类似。 
首先,我们二话不说,先放出交叉熵的公式: 

J(θ)=1mi=1my(i)log(hθ(x(i)))+(1y(i))log(1hθ(x(i))),J(θ)=−1m∑i=1my(i)log⁡(hθ(x(i)))+(1−y(i))log⁡(1−hθ(x(i))),

以及J(θ)J(θ)对参数θθ的偏导数(用于诸如梯度下降法等优化算法的参数更新),如下: 
θjJ(θ)=1mi=1m(hθ(x(i))y(i))x(i)j∂∂θjJ(θ)=1m∑i=1m(hθ(x(i))−y(i))xj(i)

但是在大多论文或数教程中,也就是直接给出了上面两个公式,而未给出推导过程,而且这一过程并不是一两步就可以得到的,这就给初学者造成了一定的困惑,所以我特意在此详细介绍了它的推导过程,跟大家分享。因水平有限,如有错误,欢迎指正。

交叉熵损失函数

我们一共有m组已知样本,(x(i),y(i))(x(i),y(i))表示第 ii 组数据及其对应的类别标记。其中x(i)=(1,x(i)1,x(i)2,...,x(i)p)Tx(i)=(1,x1(i),x2(i),...,xp(i))T为p+1维向量(考虑偏置项),y(i)y(i)则为表示类别的一个数:

  • logistic回归(是非问题)中,y(i)y(i)取0或者1;
  • softmax回归(多分类问题)中,y(i)y(i)取1,2…k中的一个表示类别标号的一个数(假设共有k类)。

这里,只讨论logistic回归,输入样本数据x(i)=(1,x(i)1,x(i)2,...,x(i)p)Tx(i)=(1,x1(i),x2(i),...,xp(i))T,模型的参数为θ=(θ0,θ1,θ2,...,θp)Tθ=(θ0,θ1,θ2,...,θp)T,因此有 

θTx(i):=θ0+θ1x(i)1++θpx(i)p.θTx(i):=θ0+θ1x1(i)+⋯+θpxp(i).

假设函数(hypothesis function)定义为: 
hθ(x(i))=11+eθTx(i)hθ(x(i))=11+e−θTx(i)

因为Logistic回归问题就是0/1的二分类问题,可以有 
P(y^(i)=1|x(i);θ)=hθ(x(i))P(y^(i)=1|x(i);θ)=hθ(x(i))
P(y^(i)=0|x(i);θ)=1hθ(x(i))P(y^(i)=0|x(i);θ)=1−hθ(x(i))

现在,我们不考虑“熵”的概念,根据下面的说明,从简单直观角度理解,就可以得到我们想要的损失函数:我们将概率取对数,其单调性不变,有
logP(y^(i)=1|x(i);θ)=loghθ(x(i))=log11+eθTx(i),log⁡P(y^(i)=1|x(i);θ)=log⁡hθ(x(i))=log⁡11+e−θTx(i),
logP(y^(i)=0|x(i);θ)=log(1hθ(x(i)))=logeθTx(i)1+eθTx(i).log⁡P(y^(i)=0|x(i);θ)=log⁡(1−hθ(x(i)))=log⁡e−θTx(i)1+e−θTx(i).

那么对于第ii组样本,假设函数表征正确的组合对数概率为: 
I{y(i)=1}logP(y^(i)=1|x(i);θ)+I{y(i)=0}logP(y^(i)=0|x(i);θ)=y(i)logP(y^(i)=1|x(i);θ)+(1y(i))logP(y^(i)=0|x(i);θ)=y(i)log(hθ(x(i)))+(1y(i))log(1hθ(x(i)))I{y(i)=1}log⁡P(y^(i)=1|x(i);θ)+I{y(i)=0}log⁡P(y^(i)=0|x(i);θ)=y(i)log⁡P(y^(i)=1|x(i);θ)+(1−y(i))log⁡P(y^(i)=0|x(i);θ)=y(i)log⁡(hθ(x(i)))+(1−y(i))log⁡(1−hθ(x(i)))

其中,I{y(i)=1}I{y(i)=1}I{y(i)=0}I{y(i)=0}为示性函数(indicative function),简单理解为{ }内条件成立时,取1,否则取0,这里不赘言。 
那么对于一共mm组样本,我们就可以得到模型对于整体训练样本的表现能力: 
i=1my(i)log(hθ(x(i)))+(1y(i))log(1hθ(x(i)))∑i=1my(i)log⁡(hθ(x(i)))+(1−y(i))log⁡(1−hθ(x(i)))

由以上表征正确的概率含义可知,我们希望其值越大,模型对数据的表达能力越好。而我们在参数更新或衡量模型优劣时是需要一个能充分反映模型表现误差的损失函数(Loss function)或者代价函数(Cost function)的,而且我们希望损失函数越小越好。由这两个矛盾,那么我们不妨领代价函数为上述组合对数概率的相反数: 
J(θ)=1mi=1my(i)log(hθ(x(i)))+(1y(i))log(1hθ(x(i)))J(θ)=−1m∑i=1my(i)log⁡(hθ(x(i)))+(1−y(i))log⁡(1−hθ(x(i)))

上式即为大名鼎鼎的交叉熵损失函数。(说明:如果熟悉“信息熵“的概念E[logpi]=mi=1pilogpiE[−log⁡pi]=−∑i=1mpilog⁡pi,那么可以有助理解叉熵损失函数)

交叉熵损失函数的求导

这步需要用到一些简单的对数运算公式,这里先以编号形式给出,下面推导过程中使用特意说明时都会在该步骤下脚标标出相应的公式编号,以保证推导的连贯性。 
  logab=logalogb  log⁡ab=log⁡a−log⁡b 
  loga+logb=log(ab)  log⁡a+log⁡b=log⁡(ab) 
  a=logea  a=log⁡ea 
另外,值得一提的是在这里涉及的求导均为矩阵、向量的导数(矩阵微商),这里有一篇教程总结得精简又全面,非常棒,推荐给需要的同学。 
下面开始推导: 
交叉熵损失函数为: 

J(θ)=1mi=1my(i)log(hθ(x(i)))+(1y(i))log(1hθ(x(i)))J(θ)=−1m∑i=1my(i)log⁡(hθ(x(i)))+(1−y(i))log⁡(1−hθ(x(i)))

其中, 
loghθ(x(i))=log11+eθTx(i)=log(1+eθTx(i)) ,log(1hθ(x(i)))=log(111+eθTx(i))=log(eθTx(i)1+eθTx(i))=log(eθTx(i))log(1+eθTx(i))=θTx(i)log(1+eθTx(i)) .log⁡hθ(x(i))=log⁡11+e−θTx(i)=−log⁡(1+e−θTx(i)) ,log⁡(1−hθ(x(i)))=log⁡(1−11+e−θTx(i))=log⁡(e−θTx(i)1+e−θTx(i))=log⁡(e−θTx(i))−log⁡(1+e−θTx(i))=−θTx(i)−log⁡(1+e−θTx(i))①③ .

由此,得到 
J(θ)=1mi=1m[y(i)(log(1+eθTx(i)))+(1y(i))(θTx(i)log(1+eθTx(i)))]=1mi=1m[y(i)θTx(i)θTx(i)log(1+eθTx(i))]=1mi=1m[y(i)θTx(i)logeθTx(i)log(1+eθTx(i))]=1mi=1m[y(i)θTx(i)(logeθTx(i)+log(1+eθTx(i)))]=1mi=1m[y(i)θTx(i)log(1+eθTx(i))]J(θ)=−1m∑i=1m[−y(i)(log⁡(1+e−θTx(i)))+(1−y(i))(−θTx(i)−log⁡(1+e−θTx(i)))]=−1m∑i=1m[y(i)θTx(i)−θTx(i)−log⁡(1+e−θTx(i))]=−1m∑i=1m[y(i)θTx(i)−log⁡eθTx(i)−log⁡(1+e−θTx(i))]③=−1m∑i=1m[y(i)θTx(i)−(log⁡eθTx(i)+log⁡(1+e−θTx(i)))]②=−1m∑i=1m[y(i)θTx(i)−log⁡(1+eθTx(i))]

这次再计算J(θ)J(θ)对第jj个参数分量θjθj求偏导: 
θjJ(θ)=θj(1mi=1m[log(1+eθTx(i))y(i)θTx(i)])=1mi=1m[θjlog(1+eθTx(i))θj(y(i)θTx(i))]=1mi=1mx(i)jeθTx(i)1+eθTx(i)y(i)x(i)j=1mi=1m(hθ(x(i))y(i))x(i)j∂∂θjJ(θ)=∂∂θj(1m∑i=1m[log⁡(1+eθTx(i))−y(i)θTx(i)])=1m∑i=1m[∂∂θjlog⁡(1+eθTx(i))−∂∂θj(y(i)θTx(i))]=1m∑i=1m(xj(i)eθTx(i)1+eθTx(i)−y(i)xj(i))=1m∑i=1m(hθ(x(i))−y(i))xj(i)

这就是交叉熵对参数的导数: 
θjJ(θ)=1mi=1m(hθ(x(i))y(i))x(i)j∂∂θjJ(θ)=1m∑i=1m(hθ(x(i))−y(i))xj(i)

转载请注明出处:http://blog.csdn.net/jasonzzj/article/details/52017438

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/jasonzzj/article/details/52017438

在delphi中使用flash控件

FLASH是Macromedia公司出品的,用在互联网上动态的、可互动的shockwave。它的优点是体积小,可边下载边播放,这样就避免了用户长时间的等待。    FLASH可以用其生成动画,还可在网...
  • tianhaiyise
  • tianhaiyise
  • 2002-01-04 10:39:00
  • 1014

交叉熵代价函数定义及其求导推导(读书笔记)

交叉熵代价函数
  • sinat_35512245
  • sinat_35512245
  • 2017-11-24 21:07:10
  • 479

交叉熵代价函数 求导过程

derivative of cost function for Logistic Regression I am going over the lectures on Machine Learn...
  • widon1104
  • widon1104
  • 2015-10-20 16:14:36
  • 2550

交叉熵代价函数(作用及公式推导)

交叉熵代价函数(Cross-entropy cost function)是用来衡量人工神经网络(ANN)的输出值与实际值的一种方式。与二次代价函数(Quadratic cost function)相比...
  • u014313009
  • u014313009
  • 2016-04-02 18:22:52
  • 48198

神经网络中交叉熵代价函数 求导

最近看了几篇神经网络的入门介绍知识,有几篇很浅显的博文介绍了神经网络算法运行的基本原理,首先盗用伯乐在线中的一个11行python代码搞定的神经网络,import numpy as np# sigmo...
  • sinat_29508201
  • sinat_29508201
  • 2016-04-15 15:17:21
  • 2760

简单易懂的softmax交叉熵损失函数求导

来写一个softmax求导的推导过程,不仅可以给自己理清思路,还可以造福大众,岂不美哉~ softmax经常被添加在分类任务的神经网络中的输出层,神经网络的反向传播中关键的步骤就是求导,从这个过程也...
  • qian99
  • qian99
  • 2017-09-20 22:23:33
  • 6309

逻辑回归中代价函数求导推导

Coursera上在推导代价函数时一笔带过了,没有过程,现推导如下:所给代价函数: J(θ)=−1m[∑mi=1y(i)loghθ(x(i))+(1−y(i))log(1−hθ(x(i)))]J(\...
  • JianDianZeng
  • JianDianZeng
  • 2016-10-24 21:28:16
  • 3477

Softmax 以及 交叉熵损失函数 的求导

Ouput layer & 代价函数网络结构Output later 有K个神经元,有K个输入和输出。为了分别标记输入和输出,用ai∈[1,K]a_{i\in[1,K]}来表示Output layer...
  • abeldeng
  • abeldeng
  • 2018-01-19 15:57:06
  • 221

softmax的log似然代价函数(公式求导)

在人工神经网络(ANN)中,softmax通常被用作输出层的激活函数。这不仅是因为它的效果好,而且因为它使得ANN的输出值更易于理解。同时,它配合log似然代价函数,其训练效果也要比采用二次代价函数的...
  • u014313009
  • u014313009
  • 2016-04-02 21:59:01
  • 26829

Softmax代价函数求导过程

Cost Function参考UFLDL的Softmax回归,SoftMax回归的的损失函数形为:J(θ)=−1N∑i=1m∑j=1k⎛⎝I(y(i)=k)logeθTjx(i)∑kl=1eθTjx(...
  • liu_zheng87
  • liu_zheng87
  • 2016-09-29 15:42:49
  • 778
收藏助手
不良信息举报
您举报文章:交叉熵代价函数(损失函数)及其求导推导
举报原因:
原因补充:

(最多只允许输入30个字)