机器学习之最大熵模型(一)

1、信息量

定义
h ( x i ) = − log ⁡ p i h(x_i) = - \log p_i h(xi)=logpi
在香农提出信息论以前,信息是很难被量化的,这给严密的数学推导带来了不便,如果人们要找到一个可以描述信息大小的量,那么它要满足以下三个原则

  1. 事件发生的概率越低,信息量越大
  2. 事件发生的概率越大,信息量越小
  3. 多个事件同时发生的概率是相乘,但是总的信息量是相加。
  • 为什么信息量要跟概率扯上关系呢?
    信息是个很抽象的概念,从个体的角度来讲,信息是用来解除无知的,那么什么叫无知呢?所谓无知,指的是对一个事物不了解,该事物对你来说完全是不确定的,一个事件的发生给你带来的信息量越大,那它给你解除的这种不确定性越多。由于概率论本身就是研究不确定性的,因此才用概率描述信息量。
  • 为什么事件发生的概率越大,信息量越小?
    因为事件发生的概率越大,其不确定性越小,它的发生给你解除的不确定性也越少,信息量自然也越小。
  • 为什么信息量要用对数函数表示?
    因为信息量是人设计的,对数函数正好能满足第三条原则。

2、信息熵

信息熵是用来描述不确定性的,是香农从热力学中引进过来的,原本表示的是分子状态混乱程度的物理量,在此表示的是不确定度,是信息量的期望
H ( x ) = − ∑ i = 1 n p x i log ⁡ p x i H(x)=- \sum_{i=1}^{n}p_{xi}\log p_{xi} H(x)=i=1npxilogpxi
如上小节所述,信息量描述了事物的某一种可能情况的发生解除的不确定性的大小,而信息熵作为信息量的期望,描述了一个事物多个可能情况的平均信息量的大小。在可能情况个数确定的情况下,不确定性度越大,解除这种不确定度需要的信息量就越大,信息熵也就越大。但信息熵的大小不但与事物的各个可能情况的概率分布有关,还与可能情况的个数有关,如下例所示。
举个例子
X ∼ { 0 , 1 } n X\thicksim\{0,1\}^n X{ 0,1}n, X ∈ R n X\isin R^n XRn,求 H ( X ) H(X) H(X)
解:
所有可能性的个数有2n个,因为是均匀分布,每个可能性的概率均为 1 2 n \frac{1}{2^n} 2n1,因此:
H ( X ) = − ∑ i 2 n 1 2 n log ⁡ 1 2 n = n \begin{aligned} H(X) & = - \sum_{i}^{2^n}\frac{1}{2^n}\log \frac{1}{2^n} \\ & =n \end{aligned} H(X)=i2n2n1log2n1=n
信息熵还可以用在编码领域,如"熵编码法",使用频率越高的词汇采用的编码字符越短,频率越低的词汇,采用的编码字符越长,这样使得平均编码字符长度最短。

3、联合熵、条件熵与互信息

定义 H ( X , Y ) = − ∑ i ∑ j p ( x i , y j ) log ⁡ p ( x i , y j ) H ( Y ∣ X ) = ∑ i = 1 n p ( x i ) H ( Y ∣ X = x i ) I ( X , Y ) = ∑ i = 1 n ∑ j = 1 n p ( x i , y j ) log ⁡ p ( x i , y j ) p ( x i ) p ( y j ) H(X,Y)=-\sum_{i}\sum_{j}p(x_i,y_j)\log p(x_i,y_j) \\ H(Y|X)=\sum_{i=1}^{n}p(x_i)H(Y|X=x_i) \\ I(X,Y)=\sum_{i=1}^{n}\sum_{j=1}^{n}p(x_i,y_j)\log\frac{p(x_i,y_j)}{p(x_i)p(y_j)} H(X,Y)=ijp(xi,yj)logp(xi,yj)H(YX)=i=1np(xi)H(YX=xi)I(X,Y)=i=1nj=1np(xi,yj)logp(xi)p(yj)p(xi,yj)
联合熵和条件熵关系推导

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值