条件熵和信息熵

条件熵

了解信息熵之前补充一些离散数学的知识:

数学期望

信息熵

先给出信息熵的公式:
H ( x ) = − ∑ i = 1 n p ( x i ) l o g ( p ( x i ) ) H(x)=-\sum\limits_{i=1}^{n}p(x_i)log(p(x_i)) H(x)=i=1np(xi)log(p(xi))
其中: p ( x i ) p(x_i) p(xi)代表随机概率事件 x i x_i xi的概率,
下面我们来逐步分析:

首先了解一下信息量: 信息量是对信息的度量,是对信息的一种量化指标,如是时间的量化为s,长度的量化为m,质量的量化为kg等。当我们考虑一个离散的随机变量 x x x的时候,当我们观察到这个变量的一个具体值的时候,我们接受到了多少信息呢?

信息的多少由信息量来衡量,我们接受到的信息量跟具体发生的事件有关.

不难理解,信息量的大小跟事件随机概率有关,越小的概率所包含的信息量越大,如海啸地震,核弹爆发,这种都是小概率事件,却蕴含着巨大的信息,而日常的晴天阴天,太阳每天东升西落,习以为常的事件自然蕴含的信息量就小。

如果是两个独立的事件 a a a b b b,那么同时发生的获得的信息量应该是各自发生时获得的信息之和,即: h ( a , b ) = h ( a ) + h ( b ) h(a,b)=h(a)+h(b) h(a,b)=h(a)+h(b),
由于两个独立的事件 a a a b b b满足 p ( a , b ) = p ( a ) ∗ p ( b ) p(a,b)=p(a)*p(b) p(a,b)=p(a)p(b)
根据上面推导,很容易看出 h ( x ) h(x) h(x)一定是关于 p ( x ) p(x) p(x)的对数关系,我们可以试着构造一个函数 h ( x ) = − l o g 2 p ( x ) h(x)=-log_2p(x) h(x)=log2p(x),前面的负号是干啥的?因为 p ( x ) ∈ [ 0 , 1 ] p(x)\in[0,1] p(x)[0,1],为确保 h ( x ) > 0 h(x)>0 h(x)>0

下面正式引出信息熵: 信息量度量的是一个具体事件发生所带来的信息,而熵则是在结果出来之前可能产生的信息量的期望——考虑改随机变量的所有可能取值,即所有可能发生事件所带来的信息量的期望。即
H ( x ) = − ∑ i = 1 n p ( x i ) l o g ( p ( x i ) ) H(x)=-\sum\limits_{i=1}^{n}p(x_i)log(p(x_i)) H(x)=i=1np(xi)log(p(xi))
信息熵还可以作为一个系统复杂程度的度量,如果系统越复杂,出现不同情况的种类越多,那么他的信息熵是比较大的。如果一个系统越简单,出现情况种类很少(极端情况为一种情况,那么对应的概率为1,因此对应的信息熵为0),此时的信息熵较小。

互信息

在概率论和信息论中,两个随机变量的互信息(mutual Information ,MI)度量了两个变量之间互相依赖的程度。

互信息

互信息的定义

设随机变量 ( X , Y ) {\displaystyle (X,Y)} (X,Y)是空间 X × Y {\displaystyle {\mathcal {X}}\times {\mathcal {Y}}} X×Y中的一对随机变量。若他们的联合分布是 p ( x , y ) {\displaystyle p(x,y)} p(x,y) ,边缘分布分别是 p ( x ) {\displaystyle p(x)} p(x) 和 和 p ( y ) {\displaystyle p(y)} p(y),那么,它们之间的互信息可以定义为:

I ( X ; Y ) = D K L ( p ( x , y ) ∥ p ( x ) ⊗ p ( y ) ) {\displaystyle I(X;Y)=D_{\mathrm {KL} }(p(x,y)\|p(x)\otimes p(y))} I(X;Y)=DKL(p(x,y)p(x)p(y))

其中, D K L {\displaystyle D_{\mathrm {KL} }} DKL为KL散度(Kullback–Leibler divergence)。注意,根据KL散度的性质,若联合分布 p ( x , y ) p(x,y) p(x,y)等于边缘分布 p ( x ) p(x) p(x) p ( y ) p(y) p(y)的乘积,则 I ( X ; Y ) = 0 I(X;Y)=0 I(X;Y)=0,即当 X X X Y Y Y相互独立的时候,观测到Y对于我们预测X没有任何帮助,此时他们的互信息为0。

离散变量的互信息

离散随机变量 X 和 Y 的互信息可以计算为:

I ( X ; Y ) = ∑ y ∈ Y ∑ x ∈ X p ( x , y ) log ⁡ ( p ( x , y ) p ( x )   p ( y ) ) ,   ⁣ I(X;Y) = \sum_{y \in Y} \sum_{x \in X} p(x,y) \log{ \left(\frac{p(x,y)}{p(x)\,p(y)} \right) }, \,\! I(X;Y)=yYxXp(x,y)log(p(x)p(y)p(x,y)),

其中 p ( x , y ) p(x,y) p(x,y) X X X Y Y Y 的联合概率质量函数,而 p ( x ) p(x) p(x) p ( y ) p(y) p(y) 分别是 X X X Y Y Y的边缘概率质量函数。

连续变量的互信息

在连续随机变量的情形下,求和被替换成了二重定积分:

I ( X ; Y ) = ∫ Y ∫ X p ( x , y ) log ⁡ ( p ( x , y ) p ( x )   p ( y ) )    d x   d y , I(X;Y) = \int_Y \int_X p(x,y) \log{ \left(\frac{p(x,y)}{p(x)\,p(y)} \right) } \; dx \,dy, I(X;Y)=YXp(x,y)log(p(x)p(y)p(x,y))dxdy,

其中 p ( x , y ) p(x,y) p(x,y)当前是 X X X Y Y Y 的联合概率’‘密度’'函数,而 p ( x ) p(x) p(x) p ( y ) p(y) p(y) 分别是 X X X Y Y Y 的边缘概率密度函数。

如果对数以 2 为基底,互信息的单位是bit。

直观上,互信息度量 X X X Y Y Y 共享的信息:它度量知道这两个变量其中一个,对另一个不确定度减少的程度。例如,如果 X X X Y Y Y 相互独立,则知道 X X X 不对 Y Y Y 提供任何信息,反之亦然,所以它们的互信息为零。在另一个极端,如果 X X X Y Y Y 的一个确定性函数,且 Y Y Y 也是 X X X 的一个确定性函数,那么传递的所有信息被 X X X Y Y Y 共享:知道 X X X 决定 Y Y Y 的值,反之亦然。因此,在此情形互信息与 Y Y Y(或 X X X)单独包含的不确定度相同,称作 Y Y Y(或 X X X)的熵。而且,这个互信息与 X X X 的熵和 Y Y Y 的熵相同。(这种情形的一个非常特殊的情况是当 X X X Y Y Y 为相同随机变量时。)

互信息是 X X X Y Y Y 的联合分布相对于假定 X X X Y Y Y 独立情况下的联合分布之间的内在依赖性。
于是互信息以下面方式度量依赖性:‘‘I’’( X X X; Y Y Y) = 0 当且仅当 X X X Y Y Y 为独立随机变量。从一个方向很容易看出:当 X X X Y Y Y 独立时, P ( X , Y ) = p ( X ) p ( Y ) P(X,Y)= p(X) p(Y) P(X,Y)=p(X)p(Y),因此:

log ⁡ ( p ( x , y ) p ( x )   p ( y ) ) = log ⁡ 1 = 0.   ⁣ \log{ \left( \frac{p(x,y)}{p(x)\,p(y)} \right) } = \log 1 = 0. \,\! log(p(x)p(y)p(x,y))=log1=0.

此外,互信息是非负的(即 I ( X ; Y ) ≥ 0 I(X;Y)\ge0 I(X;Y)0; 见下文),而且是对称的(即 I ( X ; Y ) = I ( Y ; X ) I(X;Y) = I(Y;X) I(X;Y)=I(Y;X))。

  • 10
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
辽B代驾管理系统对代驾订单管理、用户咨询管理、代驾订单评价管理、代驾订单投诉管理、字典管理、论坛管理、公告管理、新闻信息管理、司机管理、用户管理、管理员管理等进行集中化处理。经过前面自己查阅的网络知识,加上自己在学校课堂上学习的知识,决定开发系统选择小程序模式这种高效率的模式完成系统功能开发。这种模式让操作员基于浏览器的方式进行网站访问,采用的主流的Java语言这种面向对象的语言进行辽B代驾管理系统程序的开发,在数据库的选择上面,选择功能强大的Mysql数据库进行数据的存放操作。辽B代驾管理系统的开发让用户查看代驾订单信息变得容易,让管理员高效管理代驾订单信息。 辽B代驾管理系统具有管理员角色,用户角色,这几个操作权限。 辽B代驾管理系统针对管理员设置的功能有:添加并管理各种类型信息,管理用户账户信息,管理代驾订单信息,管理公告信息等内容。 辽B代驾管理系统针对用户设置的功能有:查看并修改个人信息,查看代驾订单信息,查看公告信息等内容。 辽B代驾管理系统针对管理员设置的功能有:添加并管理各种类型信息,管理用户账户信息,管理代驾订单信息,管理公告信息等内容。 辽B代驾管理系统针对用户设置的功能有:查看并修改个人信息,查看代驾订单信息,查看公告信息等内容。 系统登录功能是程序必不可少的功能,在登录页面必填的数据有两项,一项就是账号,另一项数据就是密码,当管理员正确填写并提交这二者数据之后,管理员就可以进入系统后台功能操作区。项目管理页面提供的功能操作有:查看代驾订单,删除代驾订单操作,新增代驾订单操作,修改代驾订单操作。公告信息管理页面提供的功能操作有:新增公告,修改公告,删除公告操作。公告类型管理页面显示所有公告类型,在此页面既可以让管理员添加新的公告信息类型,也能对已有的公告类型信息执行编辑更新,失效的公告类型信息也能让管理员快速删除。新闻管理页面,此页面提供给管理员的功能有:新增新闻,修改新闻,删除新闻。新闻类型管理页面,此页面提供给管理员的功能有:新增新闻类型,修改新闻类型,删除新闻类型。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值