本文将介绍熵的相关的概念以及用到熵的概念较多的地方,直接上内容。
熵的定义:
两种单位:
a、当以2为底时,单位为bit;
b、当以e为底时,单位为nat(奈特)。
它是对一个变量的不确定性的度量。换句话说熵值越大,不确定性就越大。
当变量x的分布为均匀分布时,对应的熵值是为最大的,
计算如下:
P(x)=1/N时,p(xi) = 1/N, 则熵为:H(p) = -Σpi * lnpi = -Σ1/N * ln(1/N) = lnN
所以,我们可以得到如下结论:
· 0 <= H(X) <= ln|X|
· 熵是随机变量不确定性的度量,不确定性越大,熵值越大;
· 若随机变量退化为定值,则熵最小,为0;
· 锁随机分布为均匀分布,熵最大。
联合熵:
两个随机变量X,Y的联合分布,可以形成联合熵(Joint Entropy),用H(X, Y)表示。
o 即:H(X, Y) = -Σp(x, y) lnp(x, y)
条件熵:
H(Y|X)=H(X, Y) - H(Y)
表示(X, Y)发生所包含的熵,减去Y单独发生包含的熵:在Y发生的前提下,X发生新带来的熵
相对熵/交叉熵/KL散度:
相对熵,又称互熵,交叉熵,鉴别信息,Kullback-Leible散度等。描述的是两个随机变量的距离(也可以理解为相似度)。
定义如下,
假设p,q为x取值的两个概率分布,则p对q的相对熵是
KL散度一般不具有对称性,即D(p||q) ≠ D(q||p),当且仅当p = q, 则相对熵为0,二者相等;
假定已知随机变量P,求一个随机变量Q,使得Q尽量接近于P,这样我们可以使用P和Q的K-L来度量他们的距离。
· 假定使用,为了让距离最小,则要求P为0的地方,Q尽量为0。这样会得到比较瘦高的分布曲线;
· 假定使用,为了让距离最小,则要求P不为0 的地方,Q也尽量不为0。这样会得到比较矮胖的分布曲线。
互信息:
两个随机变量X,Y的互信息,定义为X,Y的联合分布和独立分布乘积的相对熵。
I(X, Y) = D(P(X, Y) || P(X)P(Y))
可以通过简单的计算得到:
H(X|Y) = H(X) - I(X, Y),
互信息为0,则随机变量X和Y是互相独立的。
最大熵模型(条件熵):
它是概率模型学习的一个准则,学习概率模型时,在所有可能的概率模型(分布)中,熵最大的模型是最好的模型,通常采用约束条件来确定概率模型的集合。
因此,最大熵模型也可以表示为在满足约束条件的模型集合中选取熵最大的模型。
定义如下:
满足所有约束条件()的模型集合为定义在条件概率分布p(y|x)上的条件熵,则使上式的结果最大的模型称为最大熵模型。
即就是
各种熵之间的关系
· H(X|Y) = H(X, Y) - H(Y); H(Y|X) = H(X, Y) - H(X) —— 条件熵的定义
· H(X|Y) = H(X) - I(X, Y); H(Y|X) = H(Y) - I(X, Y)
· I(X, Y) = H(X) - H(X|Y) = H(X) + H(Y) - H(X, Y) —— 也可以作为互信息的定义
· H(X|Y) <= H(X):
· H(X)表示X的不确定度;H(X|Y)表示给定Y的情况下,X的不确定度。
· 如果X与Y完全独立,则二者相等(给不给Y对X能给出多少信息无关);
· 而如果X与Y不是独立的,则给定Y之后会降低X的熵,即X的不确定性会降低。
Logistics和Softmax
· Logistic/SoftMax回归的后验概率形式:
·
· 最大熵模型的后验概率形式:
·
Logistic回归是统计学习中的经典分类方法,可以用于二类分类也可以用于多类分类(softmax)。
最大熵模型由最大熵原理推导出来,最大熵原理是概率模型学习或估计的一个准则,最大熵原理认为在所有可能的概率模型的集合中,熵最大的模型是最好的模型,最大熵模型也可以用于二类分类和多类分类。
Logistic回归模型与最大熵模型都属于对数线性模型。
逻辑回归跟最大熵模型没有本质区别。逻辑回归是最大熵对应类别为二类时的特殊情况
指数簇分布的最大熵等价于其指数形式的最大似然。
二项式分布的最大熵解等价于二项式指数形式(sigmoid)的最大似然;
多项式分布的最大熵等价于多项式分布指数形式(softmax)的最大似然。
求最大熵的问题最后可以化成MLA的问题做,两者的出发点不同,但是最终的形式是一样的。
中心极限定理
一组有确定方差的独立随机变量的和趋近于高斯分布。即给定随机变量X和Y,则X+Y比X或Y更接近于高斯分布。