熵相关原理介绍

本文介绍了信息论中的基本概念——熵,包括熵的定义及其作为自信息的含义。接着,讨论了联合熵和条件熵,阐述它们在描述随机变量不确定性中的作用。此外,还涉及互信息、相对熵、交叉熵和困惑度等关键概念,这些在机器学习和自然语言处理中起到重要作用。
摘要由CSDN通过智能技术生成

摘自《统计自然语言处理》宗成庆

  • 是信息论的基本概念,贝尔实验室出版的《贝尔系统技术》连载的香农博士的文章《通信教学原理》奠定了信息论的基础。

  • 如果X是一个离散型随机变量,取值空间为R,其概率分布为 p ( x ) = P ( X = x ) , x ∈ R p(x)=P(X=x), x\in R p(x)=P(X=x),xR,那么X的熵H(X)定义为 H ( X ) = − ∑ x ∈ R p ( x ) l o g 2 p ( x ) H(X)=-\sum_{x\in R}p(x)log_2p(x) H(X)=xRp(x)log2p(x)

  • 熵又称为自信息(self-information),可以看作描述一个随机变量的不确定性的数量,随机变量的熵越大,它的不确定性越大使熵值最大的概率分布最真实地反映了事件的分布情况。也就是说,在已知部分知识的前提下,关于未知分布最合理的推断应该是符合已知知识最不确定或最大随机的推断。

联合熵和条件熵

  • 如果X,Y是一对离散型随机变量 X , Y ∼ p ( x , y ) X,Y\sim p(x, y) X,Yp(x,y),X,Y的联合熵(joint entropy)H(X,Y)定义为 H ( X , Y ) = − ∑ x ∈ X ∑ y ∈ Y p ( x , y ) l o g p ( x , y ) H(X,Y)=-\sum_{x\in X}\sum_{y\in Y}p(x,y)logp(x,y) H(X,Y)=xXyYp(x,y)logp(x,y)

  • 联合熵实际上就是描述一对随机变量平均所需要的信息量。
    给定随机变量X的情况下,随机变量Y的条件熵(conditional entropy)定义为
    H ( Y ∣ X ) = ∑ x ∈ X p ( x ) H ( Y ∣ X = x ) = ∑ x ∈ X p ( x ) [ − ∑ y ∈ Y p ( y ∣ x ) l o g p ( y ∣ x ) ] = − ∑ x ∈ X ∑ y ∈ Y p ( x , y ) l o g p ( y ∣ x ) H(Y|X) = \sum_{x\in X}p(x)H(Y|X=x) =\sum_{x\in X}p(x)[-\sum_{y\in Y}p(y|x)logp(y|x)] =-\sum_{x\in X}\sum_{y\in Y}p(x,y)logp(y|x) H(YX)=xXp(x)H

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值