机器学习笔记:各种熵

本文概述了机器学习中熵的概念,包括信息量、信息熵、条件熵、相对熵(KL散度)和交叉熵,以及JS散度。介绍了这些熵在描述分布关系、不确定性以及损失函数中的作用。
摘要由CSDN通过智能技术生成

在机器学习中通常会使用各种熵来描述分布与分布之间的关系,如条件熵和交叉熵等,也有直接优化熵的模型,如最大熵模型。
这篇文章简单总结一下之前见到过的一些熵相关的概念。


信息量

定义

假设有离散随机变量 X X X 满足分布 P ( X = x i ) = p i P(X = x_{i}) = p_{i} P(X=xi)=pi , 定义事件 X = x i X = x_{i} X=xi的信息量为
I ( x i ) = − l o g ( p i ) I(x_{i}) = -log(p_{i}) I(xi)=log(pi)

性质

取值范围在 [0, +∞) 区间内
顾名思义,一个事件的信息量可以直观的理解为事件发生给人带来的信息多少。由定义可以看出当事件发生概率越小时,信息量越大。


信息熵

定义

信息熵用于描述随机变量 X X X ,定义信息熵为信息量的期望值
H ( X ) = E x ∼ P [ I ( x ) ] = − ∑ i = 1 n p i l o g ( p i ) H(X) = E_{x \sim P}[I(x)] = -\sum_{i = 1}^{n}{p_{i} log(p_{i})} H(X)=ExP[I(x)]=i=1npilog(pi)

性质

取值范围在 [0, log(n)] 区间内
信息熵描述了随机变量的不确定性,当所有事件等可能地发生时,信息熵取得最大值
同样的可以定义联合分布 P ( X , Y ) P(X, Y) P(X,Y) 和条件分布 P ( X ∣ Y = y i ) P(X | Y = y_{i}) P(XY=yi) 的信息熵


条件熵

定义

假设有离散随机变量 X X X Y Y Y 满足联合分布 P ( X = x i , Y = y i ) = p i j P(X = x_{i}, Y = y_{i}) = p_{ij} P(X=xi,Y=yi)=

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值