机器学习笔记:各种熵

在机器学习中通常会使用各种熵来描述分布与分布之间的关系,如条件熵和交叉熵等,也有直接优化熵的模型,如最大熵模型。
这篇文章简单总结一下之前见到过的一些熵相关的概念。


信息量

定义

假设有离散随机变量 X X X 满足分布 P ( X = x i ) = p i P(X = x_{i}) = p_{i} P(X=xi)=pi , 定义事件 X = x i X = x_{i} X=xi的信息量为
I ( x i ) = − l o g ( p i ) I(x_{i}) = -log(p_{i}) I(xi)=log(pi)

性质

取值范围在 [0, +∞) 区间内
顾名思义,一个事件的信息量可以直观的理解为事件发生给人带来的信息多少。由定义可以看出当事件发生概率越小时,信息量越大。


信息熵

定义

信息熵用于描述随机变量 X X X ,定义信息熵为信息量的期望值
H ( X ) = E x ∼ P [ I ( x ) ] = − ∑ i = 1 n p i l o g ( p i ) H(X) = E_{x \sim P}[I(x)] = -\sum_{i = 1}^{n}{p_{i} log(p_{i})} H(X)=ExP[I(x)]=i=1npilog(pi)

性质

取值范围在 [0, log(n)] 区间内
信息熵描述了随机变量的不确定性,当所有事件等可能地发生时,信息熵取得最大值
同样的可以定义联合分布 P ( X , Y ) P(X, Y) P(X,Y) 和条件分布 P ( X ∣ Y = y i ) P(X | Y = y_{i}) P(XY=yi) 的信息熵


条件熵

定义

假设有离散随机变量 X X X Y Y Y 满足联合分布 P ( X = x i , Y = y i ) = p i j P(X = x_{i}, Y = y_{i}) = p_{ij} P(X=xi,Y=yi)=

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值