(一)什么是熵?
熵(entropy):度量系统(宏观态)内在的混乱程度(微观态)
1.物理解释
玻尔兹曼提出一个系统的熵和所有可能微观状态的数目满足以下简单关系:玻尔兹曼公式
S = K B l n W S=K_BlnW S=KBlnW 其中 K B K_B KB是玻尔兹曼常数, W W W是系统宏观状态中所包含的微观状态总数。
根据这个公式,我们可以将熵看作是一个系统“混乱程度”的度量,因为一个系统越混乱,可以看作是微观状态分布越均匀。
微观态越多(微观状态分布越均匀),其所对应的宏观态就越混乱。因此,“两红两绿”这个宏观系统最混乱。
2.信息论解释
(1)信息熵的定义
在统计学和机器学习中用到的熵是信息学里的信息熵。
香农对信息的定义:用以消除不确定性。
获取信息即指从数据中消除噪声提取信息。
信息熵:度量数据系统所包含的信息量有多少,一个随机变量的平均信息量(不等概率下,熵的加权求和)。
等式的左边:H指熵,度量不确定性; 等式的右边:P指概率,度量确定性。 所以相互转换时有一个负号。
(2)信息熵的计算:
1.原始信息:一盒彩椒
2.增加信息A
3.增加信息B
如何比较信息A和信息B所包含的信息量的大小?——信息增益
2.03 − 1.5567 = 0.4733 2.03-1.5567=0.4733 2.03−1.5567=0.4733, 1.5567 − 1 = 0.5567 1.5567-1=0.5567 1.5567−1=0.5567,
0.5567 > 0.4733 0.5567>0.4733 0.5567>0.4733。
信息B的出现使信息熵减小得更多,信息B使整个信息系统更加有序,信息B所包含的信息量更大。
(二)最大熵模型
1.最大熵原理——离散分布
熵在信息论中度量的是所包含信息量的多少,最大熵即包含最多的信息量得那种情况。
当熵最大时,概率值相等。