最大熵模型（MaxEnt）概述

最新推荐文章于 2025-04-01 11:12:29 发布

苏西月

最新推荐文章于 2025-04-01 11:12:29 发布

阅读量762

点赞数 7

文章标签：计算机视觉

本文链接：https://blog.csdn.net/qq_51011530/article/details/145411951

版权

换句话说：

最大熵的目标：
最大熵模型要找到一个概率分布 $P (y ∣ x)$ ，使得：
$\arg\max_H \text{Entropy} = -\sum_{y} P(y|x) \log P(y|x)$
但需要满足以下约束：
- 已知特征（统计信息）的条件概率应该与实际观察的统计信息一致。
例子：猜硬币
如果我们真的对硬币一无所知，最大熵模型会认为正反面概率相等（等概率分布）：
$P(\text{正面}) = P(\text{反面}) = 0.5$

但是，如果我们事先知道一些统计信息，比如硬币翻了 10 次，6 次是正面，4 次是反面。那么，最大熵模型会根据这个已知信息调整分布：
$P(\text{正面}) = 0.6,\ P(\text{反面}) = 0.4$
这个分布满足我们对已知特征的约束，同时在此约束下熵最大。

熵确实可以看作是“混乱”或“不确定性”的量度，但最大熵模型并不是盲目追求混乱。它有以下特点：

在无信息的情况下，最大熵模型会选择等概率分布，因为这符合“无偏”原则。
- 比如，当没有任何特征信息时，猜硬币正反面的概率是 $P(\text{正面}) = P(\text{反面}) = 0.5$ 。
在有信息的情况下，最大熵模型会整合这些信息，调整概率分布，同时保证熵尽可能大。
- 比如，我们知道硬币偏向正面时，最大熵模型仍会优先符合这一已知统计信息。
最大熵模型的实际意义在于使用所有可用的信息，但不添加任何无根据的假设。这使得模型既满足信息约束，又不会因引入额外假设而过拟合。

假设我们正在训练一个垃圾邮件分类器，需要预测一封邮件是否是垃圾邮件。已知以下特征：

如果我们对特征一无所知（没有观察到这些统计信息），最大熵模型会假设所有邮件垃圾与否的概率是等的：
$P(\text{垃圾邮件}) = P(\text{非垃圾邮件}) = 0.5$
但如果我们知道了上述统计信息，最大熵模型会将这些约束融入到计算中。例如：
- 对于包含“优惠”的短邮件，模型会根据已知特征调整概率，使得它倾向于垃圾邮件。
- 在此调整中，模型会保证熵尽可能大，即尽可能地保留“未知的不确定性”。