信息论中的各种熵

原创 2017年04月09日 08:30:55

本文简单介绍了信息论中的各种熵,包括自信息、熵;联合熵、条件熵、互信息;KL散度、交叉熵。并在最后用信息论中的交叉熵推导了逻辑回归,得到了和最大似然法相同的结果。

这里写图片描述

熵是信息的关键度量,通常指一条信息中需要传输或者存储一个信号的平均比特数。熵衡量了预测随机变量的不确定度,不确定性越大熵越大。

针对随机变量X,其信息熵的定义如下:

H(X)=E[log2(X)]=p(x)log2(p(x))

信息熵是信源编码中,压缩率的下限。当我们使用少于信息熵的信息量做编码,那么一定有信息的损失。

联合熵

联合熵是一集变量之间不确定的衡量手段。

H(X,Y)=p(x,y)log(p(x,y))

条件熵

条件熵描述变量Y在变量X确定的情况下,变量Y的熵还剩多少。

H(Y|X)=p(x,y)log(p(y|x))

联合熵和条件熵的关系是:

H(X,Y)=H(X)+H(Y|X)=H(Y)+H(X|Y)=H(Y,X)

自信息

自信息表示概率空间中与单一事件或离散变量的值相关的信息量的量度。

I(x)=log(p(x))

平均的自信息就是信息熵。

H(X)=E[log2(X)]=p(x)log2(p(x))

互信息

两个随机变量的互信息,是变量间相互依赖性的量度,不同于相关系数,互信息不限于实值随机变量,其更加一般。

I(X;Y)=p(x,y)log(p(x)p(y)p(x,y))

这里写图片描述

I(X;Y)=H(X)H(X|Y)=H(Y)H(Y|X)=H(X)+H(Y)H(X,Y)=H(X,Y)H(X|Y)H(Y|X)

其意义为,若我们想知道Y包含多少X的信息,在尚未得到 Y之前,我们的不确定性是 H(X),得到Y后,不确定性是H(X|Y)。所以一旦得到Y后,我们消除了 H(X)-H(X|Y)的不确定量,这就是Y对X的信息量。

KL散度(信息增益)

KL散度,又称为相对熵(relative entropy)、信息散度(information divergence)、信息增益(information gain)。

KL散度是两个概率分布P和Q差别非对称性的度量。KL散度用来度量基于Q的编码来编码来自P的样本平均所需的额外的位元数。典型情况下,P表示数据的真实分布,Q表述数据的模型分布。

DKL(P||Q)=iP(i)logP(i)Q(i)

交叉熵

交叉熵衡量了在真实分布是P的情况的情况下,使用分布Q去编码数据,需要的平均比特。

H(p,q)=Ep[logq]=H(p)+Dkl(p|q)

H(p,q)=p(x)log(q(x))

交叉熵与逻辑回归的关系如下:

逻辑回归中:

  • qy=1=y^=g(wx)
  • qy=0=1y^=1g(wx)

数据的真实分布中:

  • py=1=y
  • py=0=1y

因此,可以用交叉熵去衡量估计分布q与真实分布p的相似性,交叉熵越小那么越相似。

H(p,q)=p(x)logq(x)=ylog(y^)(1y)log(1y^)

因此,损失函数为,得到了和最大似然推导相同的结果:

L(w)=1Nn=1NH(pn,qn)=1Nn=1N[ylog(y^)(1y)log(1y^)]=1Nn=1Nlog(1+exp(ynwxn))

信息论——KL散度(Kullback–Leibler divergence)

KLKL散度是用于衡量分布之间的相似度的,可以认为是分布之间的“距离”。 概率分布P1P_1和P2P_2的KLKL散度为: KL(P1||P2)=Ex∼P1logP1P2KL(P_1||P_2) ...
  • VictoriaW
  • VictoriaW
  • 2017年02月22日 19:17
  • 1975

信息论几个基本概念

在学习机器学习的算法之前,需要明确几个基本概念。   1. 信息熵(entropy)   熵是表示随机变量不确定性的度量.从直观上,信息熵越大,变量包含的信息量越大,变量的不确定性也越...
  • lsj19910408
  • lsj19910408
  • 2014年12月01日 00:15
  • 3022

我理解的信息论——自信息、熵、互信息

原文:http://blog.sina.com.cn/s/blog_5fc770cd0100ia5k.html 信息论    信息是关于事物的运动状态和规律的认识,它可以脱离具体的事物而被...
  • qtlyx
  • qtlyx
  • 2016年03月07日 14:30
  • 3239

香农信息论中译版(pdf)

  • 2010年10月03日 01:01
  • 4.05MB
  • 下载

信息论的熵

信息论的熵
  • hguisu
  • hguisu
  • 2014年05月28日 16:48
  • 33825

如何直观理解交叉熵及其优势?

在统计学中,损失函数是一种衡量系统错误程度的函数。而在有监督学习模型里,损失函数则是衡量模型对样本预测值与样本真实标签之间差异程度的方法。最近用到了交叉熵,觉得有必要弄明白交叉熵到底是什么原理及优势,...
  • cherrylvlei
  • cherrylvlei
  • 2016年11月06日 12:12
  • 2627

信息熵,条件熵,相对熵

信息熵,条件熵,相对熵 Last Edit 2013/12/30  以前在学习通信原理,信息论时都学习过这样的原理,但是不能从根本理解这样的公式有什么用,能解决什么问题。例如,笔者最近在看用信息论里条...
  • jxlijunhao
  • jxlijunhao
  • 2013年12月31日 08:52
  • 7009

如何理解信息论中的各种熵?

信息论,机器学习中常用的熵的直观理解
  • PKU_Jade
  • PKU_Jade
  • 2017年04月20日 21:09
  • 536

信息论、最大熵模型

七月在线4月机器学习算法班课程笔记——No.8 1. 统计学习基础回顾1.1 先验概率与后验概率  先验概率:根据以往经验和分析得到的概率,如全概率公式,它往往作为”由因求果”问题中的”因”出现。 ...
  • JoyceWYJ
  • JoyceWYJ
  • 2016年06月16日 15:03
  • 2802

从信息论的角度理解极大似然法

极大似然估计是一种概率论在统计学中的应用,建立在极大似然原理的基础上,极大似然原理的直观解释是:一个随机试验如有若干个可能的结果A、B、C、…,若在一次试验中,结果A出现,则一般认为试验条件对A出现有...
  • jteng
  • jteng
  • 2014年11月06日 20:38
  • 1099
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:信息论中的各种熵
举报原因:
原因补充:

(最多只允许输入30个字)