信息论主要概念的理解

目录(?)[-]

  1. 什么是信息量?
  2. 什么是熵,什么是信息编码所需位数,什么是最小编码位数?
  3. 什么是交叉熵?什么是相对熵(KL散度)?
  4. 什么是互信息和条件熵?
  5. 交叉熵损失函数及其求导

1. 信息量的定义:-log(p(x)),信息量与概率成反比。通俗讲,小概率事件包含的信息量大。

2. 熵的义:H(p)=Eplog1p(x)=xXp(x)logp(x), 熵的期望,在p(x)分布下,表达信息所需的最小编码位数。

3. 交叉熵的定义:CEH(p,q)=Ep[logq]=xXp(x)logq(x),通俗讲,p(x)分布下,以q表达信息所需编码位数。

顺便说,KL散度=相对熵= DKL(p||q)=Ep[logp(x)q(x)]=xXp(x)logp(x)q(x) =xX[p(x)logp(x)p(x)logq(x)]


即,DKL (p||q) = CEH(p,q) - H(p),KL散度与交叉熵变化趋势相同。
 
4. 互信息I(X,Y),
条件熵H(X|Y)  H(Y|X),由条件概率导出的熵:


5. 交叉熵loss function  (以下以Logistic回归的交叉熵为例,对Softmax回归的交叉熵类似)

交叉熵的公式: 

J(θ)=1mi=1my(i)log(hθ(x(i)))+(1y(i))log(1hθ(x(i))),

以及 J(θ) 参数 θ 的偏导数(用于诸如梯度下降法等优化算法的参数更新),如下: 
θjJ(θ)=1mi=1m(hθ(x(i))y(i))x(i)j

以上公式推导过程如下


交叉熵损失函数

我们一共有m组已知样本, (x(i),y(i)) 表示第  i  组数据及其对应的类别标记。其中 x(i)=(1,x(i)1,x(i)2,...,x(i)p)T 为p+1维向量(考虑偏置项), y(i) 则为表示类别的一个数:

  • logistic回归(是非问题)中, y(i) 取0或者1;
  • softmax回归(多分类问题)中, y(i) 取1,2…k中的一个表示类别标号的一个数(假设共有k类)。

这里,只讨论logistic回归,输入样本数据 x(i)=(1,x(i)1,x(i)2,...,x(i)p)T ,模型的参数为 θ=(θ0,θ1,θ2,...,θp)T ,因此有 

θTx(i):=θ0+θ1x(i)1++θpx(i)p.

假设函数(hypothesis function)定义为: 
hθ(x(i))=11+eθTx(i)

因为Logistic回归问题就是0/1的二分类问题,可以有 
P(y^(i)=1|x(i);θ)=hθ(x(i))
P(y^(i)=0|x(i);θ)=1hθ(x(i))

现在,我们不考虑“熵”的概念,根据下面的说明,从简单直观角度理解,就可以得到我们想要的损失函数:我们将概率取对数,其单调性不变,有
logP(y^(i)=1|x(i);θ)=loghθ(x(i))=log11+eθTx(i),
logP(y^(i)=0|x(i);θ)=log(1hθ(x(i)))=logeθTx(i)1+eθTx(i).

那么对于第 i 组样本,假设函数表征正确的组合对数概率为: 
I{y(i)=1}logP(y^(i)=1|x(i);θ)+I{y(i)=0}logP(y^(i)=0|x(i);θ)=y(i)logP(y^(i)=1|x(i);θ)+(1y(i))logP(y^(i)=0|x(i);θ)=y(i)log(hθ(x(i)))+(1y(i))log(1hθ(x(i)))

其中, I{y(i)=1} I{y(i)=0} 为示性函数(indicative function),简单理解为{ }内条件成立时,取1,否则取0,这里不赘言。 
那么对于一共 m 组样本,我们就可以得到模型对于整体训练样本的表现能力: 
i=1my(i)log(hθ(x(i)))+(1y(i))log(1hθ(x(i)))

由以上表征正确的概率含义可知,我们希望其值越大,模型对数据的表达能力越好。而我们在参数更新或衡量模型优劣时是需要一个能充分反映模型表现误差的损失函数(Loss function)或者代价函数(Cost function)的,而且我们希望损失函数越小越好。由这两个矛盾,那么我们不妨领代价函数为上述组合对数概率的相反数: 
J(θ)=i=1my(i)log(hθ(x(i)))+(1y(i))log(1hθ(x(i)))

上式即为大名鼎鼎的交叉熵损失函数。(说明:如果熟悉“ 信息熵 “的概念 E[logpi]=mi=1pilogpi ,那么可以有助理解叉熵损失函数)


交叉熵损失函数的求导

交叉熵损失函数: 

J(θ)=i=1my(i)log(hθ(x(i)))+(1y(i))log(1hθ(x(i)))

其中, 
loghθ(x(i))=log11+eθTx(i)=log(1+eθTx(i)) ,log(1hθ(x(i)))=log(111+eθTx(i))=log(eθTx(i)1+eθTx(i))=log(eθTx(i))log(1+eθTx(i))=θTx(i)log(1+eθTx(i)) .

由此,得到 
J(θ)=1mi=1m[y(i)(log(1+eθTx(i)))+(1y(i))(θTx(i)log(1+eθTx(i)))]=1mi=1m[y(i)θTx(i)θTx(i)log(1+eθTx(i))]=1mi=1m[y(i)θTx(i)logeθTx(i)log(1+eθTx(i))]=1mi=1m[y(i)θTx(i)(logeθTx(i)+log(1+eθTx(i)))]=1mi=1m[y(i)θTx(i)log(1+eθTx(i))]

这次再计算 J(θ) 对第 j 个参数分量 θj 求偏导: 
θjJ(θ)=θj(1mi=1m[log(1+eθTx(i))y(i)θTx(i)])=1mi=1m[θjlog(1+eθTx(i))θj(y(i)θTx(i))]=1mi=1mx(i)jeθTx(i)1+eθTx(i)y(i)x(i)j=1mi=1m(hθ(x(i))y(i))x(i)j

这就是交叉熵对参数的导数: 
θjJ(θ)=1mi=1m(hθ(x(i))y(i))x(i)j

转载请注明出处:http://blog.csdn.net/jasonzzj/article/details/52017438

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值