在信息论中,熵用于表示随机变量的不确定性大小,熵越大,不确定性则越大。假设离散型随机变量 X 的概率分布是P(X),那么它的熵为:H(X) = -∑p(x)log2p(x)
当 x 的每个可能取值等概率时, H(X) 达到最大,此时 H(X)=log|X| ,其中 |X| 表示 X 取值个数。
假设 Y 是一个离散型随机变量,在已知 X的条件下,那么定义 Y的条件熵为:
H(Y|X) = Σ P(x, y) log [P(y|x)]
假设分类模型是条件概率分布 P(Y|X) ,那么 P(Y=y|X=x) 表示 x属于类别 y 的概率,一般输入的样本 x 属于让条件概率分布最大的类别。最大熵原理是在所有满足约束条件的模型中,选择熵最大的那个模型,故得到最大熵定理
maxH ( Y|X ) = − ∑ x y P ( x ) P(y|x) l o g P(y|x)