机器学习中的信息论

熵和信息量

假设我们有一组离散的符号集 {v1,v2,...vm} { v 1 , v 2 , . . . v m } ,每个符号具有相应的出现概率 Pi P i 。为了衡量这组符号组成序列的随机性,定义离散分布的熵为:

H=i=1mPilog2Pi(1) (1) H = − ∑ i = 1 m P i l o g 2 P i

其中定义 0log0=0 0 l o g 0 = 0 。其中对数的底数为2,这时候熵的单位为“比特”。熵是刻画这些符号不确定性的量。熵的值并不依赖于符号本身,而是依赖于符号出现的概率。给定m个符号,当这些符号出现的概率相同时,对应的熵最大。此时的熵:
H=i=1m1mlog21m=log21m=log2m(2) (2) H = − ∑ i = 1 m 1 m l o g 2 1 m = − l o g 2 1 m = l o g 2 m

对于连续的情况:
H=+p(x)lnp(x)dx(3) (3) H = − ∫ − ∞ + ∞ p ( x ) l n p ( x ) d x

在所有的连续概率密度函数中,如果均值 μ μ 和方差 σ2 σ 2 都是固定的,则使熵达到最大值的是高斯分布。
高斯分布的概率密度函数为:
p(x)=12πσexp((xμ)22σ2)(4) (4) p ( x ) = 1 2 π σ e x p ( − ( x − μ ) 2 2 σ 2 )

求高斯分布的熵:
H=+p(x)lnp(x)dx=0.5+log2(2πσ)(5)(6) (5) H = − ∫ − ∞ + ∞ p ( x ) l n p ( x ) d x (6) = 0.5 + l o g 2 ( 2 π σ )

对于离散随机变量 x x 和任意函数f(),都有 H(f(x))H(x) H ( f ( x ) ) ≤ H ( x ) 。换而言之,对于信号的任何处理都不会增加熵。特别的当 f(x) f ( x ) 是一个常数值函数时,则熵变为0。这个性质对于连续行的随机变量是不成立的。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值