信息论起源于解决通信问题,标志性论著是香农的《通信的数学原理》。随着信息技术的发展,信息论思想不断用于机器学习和数据处理领域,解决数据分析问题。
熵是信息论中最重要和基础的概念,是概率分布的泛函,表示随机变量不确定性的大小,即假设某随机变量的概率密度为
p(x)
,则信息熵表示为
H(p)
。信息技术中经常使用的熵有下列几种:
1.自信息
自信息表示随机变量
X
某个取值
I(xi)=log1p(xi)=−logp(xi)
。自信息只能衡量单个取值的不确定性大小。
2.信息熵
信息熵
H(p)
定义为随机变量的平均自信息,即平均不确定性,反应整个分布的不确定性大小。
H(X)=−∫p(x)logp(x)dx
3. 条件熵
因为
H(Y|xi)=−∫p(y|xi)logp(y|xi)dy
,所以条件熵
H(Y|X)
定义为:
H(Y|X)=−∫∫p(x)p(y|x)logp(y|x)dydx=−∫∫p(x,y)logp(y|x)dydx
4. 互信息
随机变量
X
取值
I(ai;bj)=log1p(ai)−log1p(ai|bj)=logp(ai|bj)p(ai)
5.平均互信息
平均互信息
I(X;Y)
反应两个随机变量
X
和
I(X;Y)=∑X,Yp(xy)I(x;y))=∑X,Yp(xy)logp(x|y)p(x)=∑X,YP(xy)log1p(x)−∑X,Yp(xy)log1p(x|y)=∑Xp(x)log1p(x)∑Yp(y|x)−∑X,Yp(xy)log1p(x|y)=∑Xp(x)log1p(x)−∑X,Yp(xy)log1p(x|y)=H(X)−H(X|Y)
6.交叉熵
H(p;q)=-
∫p(x)logq(x)dx
7.相对熵
相对熵
D(p||q)
又称Kullback-Leibler divergence,即
KL
离差,表示两个随机变量分布相差多少
D(p||q)
=-
∫p(x)logq(x)dx−(−∫p(x)logp(x)dx)
=H(p)+H(p;q)=-
∫p(x)logq(x)p(x)dx
相对熵比交叉熵大
H(p)
数据处理中使用的各种熵
最新推荐文章于 2024-10-19 13:10:52 发布