机器学习实战——最大熵模型_最大熵模型试验-CSDN博客

本文链接：https://blog.csdn.net/u010487568/article/details/45512689

本文深入探讨了最大熵模型，介绍了信息熵、最大熵原理及其在机器学习中的应用。详细讲解了模型学习过程，包括决策函数的解释、特征函数设定、经验分布求解和拟牛顿法的梯度及求解。最后，阐述了模型的预测阶段，并展示了实验结果。

摘要由CSDN通过智能技术生成

信息熵

香农与1948年提出的信息论以其中的信息熵这一基本概念为基础，用来表征人们对客观事件的不确定性的度量，与物理学中的熵表征物质的混乱程度有相似之处。
当处理不确定事件时，最常用的方式就是用概率方式描述，一般假定不确定的事件A每种可能的状态都有一个概率与之对应：

P (A i) s . t . \sum i = 1 n P (A i) = 1 P (A i) \geq 0

$P(A_i)\\ s.t.\sum_{i=1}^nP(A_i)=1\\P(A_i)\ge 0$
而总共可能的状态如果是有限个（n个），那么就是离散的事件，用离散的随机变量表示；如果可能的状态是无穷多个，那么就是连续的事件，用连续的随机变量表示。本文所有说明仅以离散事件说明（连续事件只需将求和符合换成积分即可）。
人们对不确定的事件的信息知道得越多，信息熵就越小；知道得越少，信息熵就越大。信息熵表征了人们对不确定事件知道的信息的多少。从上述分析可以看出，不确定事件的每个状态都包含一定的信息，该 信息量与概率值成反比，香农使用二进制比特来定义信息量的多少：

H (A i) = l o g (1 P ( A i )) = - l o g P (A i)

$H(A_i)=log(\frac{1}{P(A_i)})=-logP(A_i)$

log(⋅) $log(\cdot)$ 是以2为底的对数。针对一个状态所含的信息量使用上述定义式得到，如果该状态的概率越大，则信息量越小。概率为1的状态是确定的就不携带任何信息，为0；反之概率越小的，信息量越大，但是，当概率为0时理论上携带了无穷多的信息（因为我们对其不知道任何信息）。
信息熵是表征不确定事件所有状态携带信息量的期望值：

H (A) = \sum i = 1 n p i l o g (1 p i) = E (l o g (1 p i))

$H(A)=\sum_{i=1}^np_ilog(\frac{1}{p_i})=E(log(\frac{1}{p_i}))$
式中以

pi $p_i$ 代替

P(Ai) $P(A_i)$ ，因此信息熵表征了一个不确定事件A的所有可能状态所提供的 平均信息量，信息熵越大，表明携带的平均信息量越大，不确定性也就越大；反之携带的平均信息量越少，不确定性越小。

最大熵原理

从上述定义可以看出当考虑所有状态时，信息熵是一个 $n$ 维函数，是通过在每个维度(也就是每个状态)的信息量求加权和得到，因此求解上述定义式的最大值就是求解如下的约束最优化问题：

m a x H (A) = - \sum i = 1 n p i l o g (p i) s . t . \sum i = 1 n p i = 1 p i \geq 0

$maxH(A)=-\sum_{i=1}^np_ilog(p_i)\\s.t.\sum_{i=1}^np_i=1\\p_i\ge 0$
使用Language乘数法求解得到：

L (p 1, p 2 . . . p n, λ) = - \sum i = 1 n p i l o g (p i) + λ (\sum i = 1 n p i - 1) \partial L \partial p i = - l o g (p i) - l n 2 + λ = 0 \partial L \partial λ = \sum i = 1 n p i - 1 = 0

$L(p_1,p_2...p_n,\lambda)=-\sum_{i=1}^np_ilog(p_i)+\lambda(\sum_{i=1}^np_i-1)\\ \frac{\partial L}{\partial p_i}=-log(p_i)-ln2+\lambda=0\\ \frac{\partial L}{\partial \lambda}=\sum_{i=1}^np_i-1=0$
求解上述方程得到信息熵取得最大值时的条件：

p 1 = p 2 = p 3 . . . . p n = 1 n, λ = l n 2 - l o g (n)

$p_1=p_2=p_3....p_n=\frac{1}{n},\lambda=ln2-log(n)$
因此，对于未知的每个状态 赋予同样的概率，使用 均匀分布得到的信息熵是最大的。当人们对不确定事件进行模拟时，在一直部分知识的前提下，对未知的部分进行最合理的推断应该是 最符合自然状态（最不确定状态）的推断，也就是 熵最大的推断。这也与物理学中的 熵增原理符合： 物质总是趋于熵增大的方向变化，也就是最自然的状态变化。这种采取的保留全部的不确定性，使用最符合自然状态的推断，从满足约束条件的模型集合中选取熵最大的模型的方法就是最大熵原理。
从上述优化的角度可以看出，对于不确定的状态使用等可能的概率来寻找模型不易操作，而使用信息熵这一个数值指标去度量，通过寻找其最大值来表示等可能性在数学论证和编程实现上获得了可能。