深度学习导论及案例分析》一2.3信息论的基本概念

#### 本节书摘来自华章出版社《深度学习导论及案例分析》一书中的第2章,第2.3节,作者李玉鑑 张婷,更多章节内容可以访问云栖社区“华章计算机”公众号查看。

2.3信息论的基本概念

一般认为,信息论开始于1948年香农(Claude Elwood Shannon)发表的论文《通信的数学原理》[96]。熵(entropy)是信息论的一个基本概念。

离散随机变量X的熵定义为
H(X)=∑x∈val(X)P(x)logP(x)(2.45)
两个离散随机变量X和Y的联合熵(joint entropy)定义为
H(X,Y)=∑x∈val(X)∑y∈val(Y)P(x,y)logP(x,y)(2.46)
在给定随机变量X的情况下,随机变量Y的条件熵(conditional entropy)定义为
H(YX)=∑x∈val(X)P(x)H(YX=x)=∑x∈val(X)P(x)-∑y∈val(Y)P(yx)logP(yx)

=-∑x∈val(X)∑y∈val(Y)P(x,y)logP(x,y)(2.47)
关于联合熵和条件熵,有熵的链式法则(chain rule for entropy),即
H(X,Y)=H(X)+H(YX)(2.48)

H(X1,X2,…,Xn)=H(X1)+H(X2X1)+…+H(XnX1,…,Xn-1)(2.49)
两个随机变量X和Y的互信息定义为
I(X,Y)=H(X)-H(YX)=H(X)+H(Y)-H(X,Y)

=∑x,yP(x,y)logP(x,y)P(x)P(y)≥0(2.50)
两个概率分布P(X)和Q(X)的KL散度(KullbackLeibler divergence),又称相对熵,定义为
KL(PQ)=∑x∈val(X)P(x)logP(x)Q(x)=EPP(x)Q(x)(2.51)
显然,当两个概率分布完全相同,即P=Q时,其相对熵为0。当两个概率分布的差别增加时,其相对熵将增大。此外,联合相对熵和条件相对熵也存在所谓的链式法则:
KL(P(X,Y)Q(X,Y))=KL(P(X)Q(X))+KL(P(YX)Q(YX))(2.52)
如果用模型分布Q(X)来近似一个未知概率分布P(X),那么还可以用交叉熵(cross entropy)来表达模型分布对未知分布的逼近程度:
CE(P,Q)=H(X)+KL(PQ)=-∑x∈val(X)P(x)logQ(x)=EPlog1Q(x)(2.53)
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值