统计学习方法(李航) 第六章(2) 最大熵模型(一)-CSDN博客

本文链接：https://blog.csdn.net/qq_62954485/article/details/147687385

笔记目录：
统计学习方法（李航）第一章绪论
 统计学习方法（李航）第二章感知机
 统计学习方法（李航）第三章 k近邻
 统计学习方法（李航）第四章贝叶斯
 统计学习方法(李航) 第五章决策树

第二节最大熵模型

1. 信息熵与最大熵原理

我们先从基础概念“熵”开始。在信息论中，熵（Entropy）是衡量一个随机变量不确定性的度量。对于一个离散随机变量 $X$ ，其可能取值为 ${x_1, x_2, ..., x_k\}$ ，对应的概率分布为 $P(X=x_i) = p_i$ ，那么 $X$ 的熵定义为：

$-\sum_{i=1}^{k} p_i \log p_i$

其中，我们通常约定 $\log 0 = 0$ 。熵越大，表示随机变量的不确定性越大，包含的信息量也越大

最大熵原理（Principle of Maximum Entropy） 是指，在推断概率模型时，如果我们需要对一个随机现象的概率分布进行建模，我们应该选择在满足所有已知约束条件下，熵最大的那个模型。为什么要这样做呢？因为熵最大的模型，意味着我们 对未知的部分做了最少的假设，是最“均匀”或最“无偏”的估计。我们不引入任何我们不知道的偏见

1.1 离散分布的最大熵

让我们来证明一个基本结论：对于一个具有 $k$ 个可能取值的离散随机变量，当且仅当它服从均匀分布时，其熵最大

问题： 找到概率分布 $P = (p_1, p_2, ..., p_k)$ 使得 $-\sum_{i=1}^{k} p_i \log p_i$ 最大化

约束条件：

概率和为1： $\sum_{i=1}^{k} p_i = 1$
概率非负： $p_i \ge 0$ （这个条件通常在求解过程中通过 $log p_i$ 的定义域隐式满足）

求解方法：拉格朗日乘子法

我们构建拉格朗日函数 $\lambda)$ ：

$L(p_1, ..., p_k, \lambda) = -\sum_{i=1}^{k} p_i \log p_i + \lambda \left( \sum_{i=1}^{k} p_i - 1 \right)$

对每个 $p_i$ 求偏导数并令其为0：

$\frac{\partial L}{\partial p_i} = -(\log p_i + p_i \cdot \frac{1}{p_i}) + \lambda = -\log p_i - 1 + \lambda = 0$

$\log p_i = \lambda - 1$

$p_i = e^{\lambda - 1}$

这说明，在极值点，所有的 $p_i$ 都必须相等。设 $p_i = c$ 。代入约束条件 $\sum_{i=1}^{k} p_i = 1$ ：

$\sum_{i=1}^{k} c = k \cdot c = 1$

$\frac{1}{k}$

因此， $p_1 = p_2 = ... = p_k = \frac{1}{k}$ 。这就是均匀分布

我们还需要验证这确实是最大值点。可以通过计算Hessian矩阵来证明熵函数 $H (P)$ 是关于 $P$ 的凹函数（稍后会证明），因此拉格朗日法找到的是唯一最大值点

结论： 在没有任何其他约束的情况下，均匀分布具有最大的熵

1.2 加入约束条件的离散分布最大熵

现在，假设我们有一些关于这个分布的额外知识，以期望值的形式给出。例如，假设随机变量 $X$ 可以取五个值 ${A, B, C, D, E\}$ ，对应的概率为 $p_1, p_2, p_3, p_4, p_5$ 。我们有以下约束：

$\sum_{i=1}^{5} p_i = 1$
$p_1 + p_2 = 3/10$
$p_1 + p_3 = 1/2$
$p_i \ge 0$

目标： 找到满足这些约束条件的分布 $P=(p_1, ..., p_5)$ ，使得熵 $-\sum_{i=1}^{5} p_i \log p_i$ 最大

求解方法：拉格朗日乘子法

构建拉格朗日函数，引入三个乘子 $\lambda_0, \lambda_1, \lambda_2$ ：

$\lambda_0, \lambda_1, \lambda_2) = -\sum_{i=1}^{5} p_i \log p_i + \lambda_0 \left( \sum_{i=1}^{5} p_i - 1 \right) + \lambda_1 (p_1 + p_2 - 3/10) + \lambda_2 (p_1 + p_3 - 1/2)$

对每个 $p_i$ 求偏导数并令其为0：

$\frac{\partial L}{\partial p_1} = -\log p_1 - 1 + \lambda_0 + \lambda_1 + \lambda_2 = 0 \implies p_1 = e^{\lambda_0 + \lambda_1 + \lambda_2 - 1}$

$\frac{\partial L}{\partial p_2} = -\log p_2 - 1 + \lambda_0 + \lambda_1 = 0 \implies p_2 = e^{\lambda_0 + \lambda_1 - 1}$

$\frac{\partial L}{\partial p_3} = -\log p_3 - 1 + \lambda_0 + \lambda_2 = 0 \implies p_3 = e^{\lambda_0 + \lambda_2 - 1}$

$\frac{\partial L}{\partial p_4} = -\log p_4 - 1 + \lambda_0 = 0 \implies p_4 = e^{\lambda_0 - 1}$

$\frac{\partial L}{\partial p_5} = -\log p_5 - 1 + \lambda_0 = 0 \implies p_5 = e^{\lambda_0 - 1}$

可以看到， $p_i$ 的形式不再是常数，而是依赖于它所涉及的约束对应的拉格朗日乘子。我们需要将这些 $p_i$ 的表达式代回到三个约束方程中，然后解出 $\lambda_0, \lambda_1, \lambda_2$ 的值，进而得到 $p_i$ 的具体数值。这个过程通常需要数值方法求解

1.3 连续分布的最大熵

对于连续随机变量 $X$ ，其概率密度函数为 $p (x)$ ，熵（也称为微分熵）定义为：

$-\int_{-\infty}^{\infty} p(x) \log p(x) dx$

定理： 在所有具有相同均值 $\mu$ 和方差 $\sigma^2$ 的连续分布中，正态分布 $N(\mu, \sigma^2)$ 的熵最大

证明思路：
目标：最大化 $h (p)$
约束条件：

$\int_{-\infty}^{\infty} p(x) dx = 1$
$\int_{-\infty}^{\infty} x p(x) dx = \mu$
$\int_{-\infty}^{\infty} (x-\mu)^2 p(x) dx = \sigma^2$

使用变分法和拉格朗日乘子法。构建泛函：

$-\int p(x) \log p(x) dx + \lambda_0 \left( \int p(x) dx - 1 \right) + \lambda_1 \left( \int x p(x) dx - \mu \right) + \lambda_2 \left( \int (x-\mu)^2 p(x) dx - \sigma^2 \right)$

取关于 $p (x)$ 的变分导数并令其为0：

$\frac{\delta L}{\delta p(x)} = -(\log p(x) + 1) + \lambda_0 + \lambda_1 x + \lambda_2 (x-\mu)^2 = 0$

$\log p(x) = \lambda_0 - 1 + \lambda_1 x + \lambda_2 (x-\mu)^2$

$\exp(\lambda_0 - 1 + \lambda_1 x + \lambda_2 (x-\mu)^2)$

为了使这个 $p (x)$ 满足均值和方差的约束，并且形式上匹配正态分布 $\frac{1}{\sqrt{2\pi\sigma^2}} e^{-\frac{(x-\mu)^2}{2\sigma^2}}$ , 我们可以比较指数部分
指数部分是一个关于 $x$ 的二次函数。为了匹配正态分布的形式 $e^{-B(x-\mu)^2}$ ，我们需要 $x$ 的一次项系数为0，即 $\lambda_1 = 0$ （这可以通过代入均值约束严格证明）
然后比较二次项系数： $\lambda_2 = -\frac{1}{2\sigma^2}$
最后，常数项 $\lambda_0 - 1$ 由归一化条件确定，使得 $\exp(\lambda_0 - 1) = \frac{1}{\sqrt{2\pi\sigma^2}}$

因此，解出的 $p (x)$ 正是 $N(\mu, \sigma^2)$

结论： 正态分布是在给定均值和方差下熵最大的连续分布

2. 最大熵模型 (MaxEnt Model)

现在我们把最大熵原理应用到条件概率分布 $P (Y ∣ X)$ 的建模上。在监督学习中，我们通常有训练数据 $x_1, y_1), ..., (x_N, y_N)$ ，我们可以从中计算出经验分布 $\tilde{P}(x, y)$ 或 $\tilde{P}(x)$

目标： 学习条件概率模型 $P (Y ∣ X)$

最大熵模型的定义： 给定训练数据和一个特征函数集合 ${f_1, f_2, ..., f_n\}$ ，最大熵模型的目标是，在所有满足约束条件的模型集合 $C$ 中，选取条件熵 $H (Y ∣ X)$ 最大的那个模型

条件熵：

$-\sum_{x, y} P(x, y) \log P(y|x)$

由于 $P (x, y) = P (x) P (y ∣ x)$ , 我们可以写成：

$-\sum_{x} P(x) \sum_{y} P(y|x) \log P(y|x)$

在实际应用中，我们通常使用经验分布 $\tilde{P}(x)$ 来代替未知的真实分布 $P (x)$ :

$\approx -\sum_{x} \tilde{P}(x) \sum_{y} P(y|x) \log P(y|x)$

特征函数 $f_i(x, y)$ ：
特征函数是描述输入 $x$ 和输出 $y$ 之间某种关系的二值函数或实值函数。例如，在文本分类中， $x$ 是一句话， $y$ 是类别，一个特征函数可以是：
$f_1(x, y) = 1$ 如果 $x$ 中包含词 “学习” 并且 y=‘教育’ ，否则为 $0$

约束条件：
最大熵模型的核心思想是让模型预测的特征期望值与从训练数据（经验分布）中观察到的特征期望值相匹配
对于每个特征 $f_i$ ，我们要求：

$E_P[f_i] = E_{\tilde{P}}[f_i]$

其中：

模型期望： $E_P[f_i] = \sum_{x, y} P(x) P(y|x) f_i(x, y) \approx \sum_{x, y} \tilde{P}(x) P(y|x) f_i(x, y)$
经验期望： $E_{\tilde{P}}[f_i] = \sum_{x, y} \tilde{P}(x, y) f_i(x, y) = \frac{1}{N} \sum_{j=1}^{N} f_i(x_j, y_j)$ （ $N$ 是训练样本数）

模型集合 C：

$\{ P \in \mathcal{P} \mid E_P[f_i] = E_{\tilde{P}}[f_i], \quad i=1, ..., n \}$

其中 $\mathcal{P}$ 是所有可能的条件概率分布 $P (Y ∣ X)$ 的集合（满足 $\sum_y P(y|x) = 1$ ）

最大熵模型的优化问题（Primal Problem）：

$P^* = \arg \max_{P \in C} H(Y|X) = \arg \max_{P \in C} \left( -\sum_{x} \tilde{P}(x) \sum_{y} P(y|x) \log P(y|x) \right)$

同时需要满足约束：

$E_P[f_i] = E_{\tilde{P}}[f_i]$ for $i = 1, ..., n$
$\sum_y P(y|x) = 1$ for all $x$

这是一个约束优化问题。直接求解 $P (y ∣ x)$ 比较困难，我们通常转向其对偶问题

3. 优化理论：拉格朗日对偶性

在求解最大熵模型之前，我们先回顾一下带约束优化问题的拉格朗日对偶理论。考虑一般的优化问题（最小化问题为例）：

原始问题 (Primal Problem):

$min_{w} f(w)$

$\text{subject to: } \quad g_i(w) \le 0, \quad i = 1, ..., k$

$\quad \quad \quad \quad h_j(w) = 0, \quad j = 1, ..., l$

广义拉格朗日函数 (Generalized Lagrangian):
引入拉格朗日乘子 $\alpha = (\alpha_1, ..., \alpha_k)$ 和 $\beta = (\beta_1, ..., \beta_l)$ ：

$\alpha, \beta) = f(w) + \sum_{i=1}^{k} \alpha_i g_i(w) + \sum_{j=1}^{l} \beta_j h_j(w)$

其中，要求 $\alpha_i \ge 0$

原始问题的等价形式 (Minimax Problem):
考虑关于 $\alpha, \beta$ 最大化 $\alpha, \beta)$ ：

$\theta_P(w) = \max_{\alpha \ge 0, \beta} L(w, \alpha, \beta)$

为什么说等价呢？

如果 $w$ 违反了某个约束，比如 $g_i(w) > 0$ ，那么我们可以让对应的 $\alpha_i \to \infty$ ，使得 $\theta_P(w) \to \infty$
如果 $w$ 违反了某个约束，比如 $h_j(w) \ne 0$ ，那么我们可以让对应的 $\beta_j$ 取合适的符号并使其绝对值 $\to \infty$ ，也使得 $\theta_P(w) \to \infty$
如果 $w$ 满足所有约束条件 ( $g_i(w) \le 0, h_j(w) = 0$ )，那么为了最大化 $L$ ，我们需要让 $\alpha_i g_i(w)$ 项最大。由于 $g_i(w) \le 0$ 且 $\alpha_i \ge 0$ ，这项最大值为 $0$ （当 $\alpha_i = 0$ 或 $g_i(w) = 0$ 时取到）。而 $\beta_j h_j(w)$ 项因为 $h_j(w)=0$ 恒为 $0$ 。因此，此时 $\theta_P(w) = f(w)$

所以，原始问题等价于：

$p^* = \min_{w} \theta_P(w) = \min_{w} \max_{\alpha \ge 0, \beta} L(w, \alpha, \beta)$

这里的 $p^*$ 是原始问题的最优值。这个 $\min \max$ 的形式解释了原始问题中的“极小极大值”

对偶问题 (Dual Problem):
我们先定义拉格朗日对偶函数 (Lagrange Dual Function) $\theta_D(\alpha, \beta)$ ：

$\theta_D(\alpha, \beta) = \min_{w} L(w, \alpha, \beta)$

对偶函数 $\theta_D(\alpha, \beta)$ 是关于 $(\alpha, \beta)$ 的凹函数（即使原始问题非凸）

对偶问题是最大化这个对偶函数：

$d^* = \max_{\alpha \ge 0, \beta} \theta_D(\alpha, \beta) = \max_{\alpha \ge 0, \beta} \min_{w} L(w, \alpha, \beta)$

这里的 $d^*$ 是对偶问题的最优值。这个 $\max \min$ 的形式解释了对偶问题中的“极大极小值”

注: 对于max和min顺序的问题

1. 原始问题的 Minimax 形式： $\min_{w} \max_{\alpha \ge 0, \beta} L(w, \alpha, \beta)$

目标: 我们的原始目标是求解带有约束的最小化问题： $min_{w} f(w)$ ，约束为 $g_i(w) \le 0$ 和 $h_j(w) = 0$

拉格朗日函数的作用: 拉格朗日函数 $\alpha, \beta) = f(w) + \sum \alpha_i g_i(w) + \sum \beta_j h_j(w)$ (其中 $\alpha_i \ge 0$ ) 将约束条件融入了目标函数

内层 Maximize (对 $\alpha, \beta$ ): 考虑固定一个 $w$ 。我们来看 $\max_{\alpha \ge 0, \beta} L(w, \alpha, \beta)$ 的值是多少：

如果 $w$ 违反了某个约束 $g_i(w) > 0$ ，因为 $\alpha_i \ge 0$ ，我们可以让 $\alpha_i \to \infty$ ，从而使得 $\alpha, \beta) \to \infty$
如果 $w$ 违反了某个约束 $h_j(w) \ne 0$ ，我们可以让 $\beta_j$ 取合适的符号并使其绝对值 $\to \infty$ ，从而使得 $\alpha, \beta) \to \infty$
如果 $w$ 满足所有约束 ( $g_i(w) \le 0, h_j(w) = 0$ )，那么 $\sum \beta_j h_j(w) = 0$ 。对于 $\sum \alpha_i g_i(w)$ ，因为 $\alpha_i \ge 0$ 和 $g_i(w) \le 0$ ，这一项总是 $\le 0$ 。为了最大化 $L$ ，我们需要让这一项尽可能接近 0，其最大值就是 0 (当 $\alpha_i=0$ 或 $g_i(w)=0$ 时取到)。因此，当 $w$ 可行时， $\max_{\alpha \ge 0, \beta} L(w, \alpha, \beta) = f(w) + 0 + 0 = f(w)$

外层 Minimize (对 $w$ ): 现在我们来看 $\min_{w} \left( \max_{\alpha \ge 0, \beta} L(w, \alpha, \beta) \right)$ 。根据上面的分析，这个表达式等价于：

$in_{w} \begin{cases} f(w) & \text{if } w \text{ is feasible} \\ \infty & \text{if } w \text{ is infeasible} \end{cases}$

这正好就是原始带约束的优化问题的定义！我们要在所有满足约束的 $w$ 中找到使 $f (w)$ 最小的那个 $w$ 。

小结 (Primal): 所以，对于原始问题，我们先对 $\alpha, \beta$ 求 max 是为了利用拉格朗日乘子将约束条件编码进去：如果 $w$ 不满足约束，就给一个无穷大的“惩罚”，如果满足约束，就得到原始的 $f (w)$ 。然后，外层的 min 就是在所有 $w$ （包括满足和不满足约束的）中找到那个最优值，因为无穷大的惩罚，最优解必然会落在满足约束的 $w$ 上。顺序是 $\min (\text{over } w) [\max (\text{over } \alpha, \beta) L]$ 。

2. 对偶问题的 Maximin 形式： $\max_{\alpha \ge 0, \beta} \min_{w} L(w, \alpha, \beta)$

对偶函数的定义: 对偶问题是围绕拉格朗日对偶函数 $\theta_D(\alpha, \beta)$ 构建的。这个函数定义为：对于固定的乘子 $\alpha (\ge 0), \beta$ ，我们在所有可能的 $w$ 上最小化拉格朗日函数 $\alpha, \beta)$

$\theta_D(\alpha, \beta) = \min_{w} L(w, \alpha, \beta)$

这个 $\theta_D(\alpha, \beta)$ 对任何 $\alpha \ge 0, \beta$ 都给出了原始问题最优值 $p^*$ 的一个下界（这就是弱对偶性 $d^* \le p^*$ 的基础）

内层 Minimize (对 $w$ ): 所以，这里的 min 操作是定义对偶函数 $\theta_D$ 的一部分。我们先固定乘子，然后找到使 $L$ 最小的 $w$ （这个 $w$ 通常会依赖于 $\alpha, \beta$ ）

外层 Maximize (对 $\alpha, \beta$ ): 对偶问题的目标是什么？是找到那个最好的下界，也就是让下界 $\theta_D(\alpha, \beta)$ 尽可能地大。因此，我们需要在所有合法的乘子（ $\alpha \ge 0$ , $\beta$ 任意）范围内，最大化 $\theta_D(\alpha, \beta)$

$\max_{\alpha \ge 0, \beta} \theta_D(\alpha, \beta) = \max_{\alpha \ge 0, \beta} \left( \min_{w} L(w, \alpha, \beta) \right)$

小结 (Dual): 对于对偶问题，我们先对 $w$ 求 min 是为了计算出给定乘子下的最好下界（即对偶函数的值）。然后，外层的 max 是在所有可能的乘子中寻找那个最大的下界。顺序是 $\max (\text{over } \alpha, \beta) [\min (\text{over } w) L]$

这个顺序的差异源于它们各自要解决的问题：

原始问题 (minimax): 目的是求解原始带约束问题。内层 max 将约束编码成惩罚，外层 min 找到最优解
对偶问题 (maximin): 目的是找到原始问题最优值的最佳下界。内层 min 定义了下界函数（对偶函数），外层 max 找到最佳的下界值

理解了这个逻辑， $\min \max$ 和 $\max \min$ 的顺序就自然了

弱对偶性 (Weak Duality):
对于任何优化问题（无论是否凸），对偶问题的最优值总是小于等于原始问题的最优值：

$d^* \le p^*$

证明：
对于任意的 $\alpha \ge 0$ 和 $\beta$ ，以及任意满足原始约束的 $w^{'}$ ：

$\theta_D(\alpha, \beta) = \min_{w} L(w, \alpha, \beta) \le L(w', \alpha, \beta) = f(w') + \sum_{i=1}^{k} \alpha_i g_i(w') + \sum_{j=1}^{l} \beta_j h_j(w')$

因为 $w^{'}$ 满足约束， $g_i(w') \le 0$ 且 $h_j(w') = 0$ 。又因为 $\alpha_i \ge 0$ ，所以 $\sum \alpha_i g_i(w') \le 0$
因此， $\alpha, \beta) \le f(w')$
我们得到 $\theta_D(\alpha, \beta) \le f(w')$
这个不等式对所有满足约束的 $w^{'}$ 和所有 $\alpha \ge 0, \beta$ 都成立
所以， $\underset{\alpha \ge 0, \beta}{\max} \theta_D(\alpha, \beta) \le \min_{w' \text{ feasible}} f(w')$ ，即 $d^* \le p^*$

强对偶性 (Strong Duality):
在某些条件下，对偶问题的最优值等于原始问题的最优值，即 $d^* = p^*$ 。这时，我们可以通过求解对偶问题来得到原始问题的解
常见的使强对偶性成立的条件是：

原始问题是凸优化问题：目标函数 $f (w)$ 是凸函数，不等式约束 $g_i(w)$ 是凸函数，等式约束 $h_j(w)$ 是仿射函数（即 $h_j(w) = A_j^T w + b_j$ ）
满足某种约束规范 (Constraint Qualification)，例如 Slater 条件。Slater 条件是指存在一个严格满足所有不等式约束的可行点 $w$ ，即存在 $w$ 使得 $g_i(w) < 0$ 对所有 $i$ 成立，且 $h_j(w) = 0$ 对所有 $j$ 成立

KKT 条件 (Karush-Kuhn-Tucker Conditions):
如果强对偶性成立，并且原始问题和对偶问题的最优解分别为 $w^*$ 和 $(\alpha^*, \beta^*)$ ，那么它们必须满足以下 KKT 条件：

Stationarity (稳定性): $\nabla_w L(w^*, \alpha^*, \beta^*) = 0$ （拉格朗日函数对 $w$ 的梯度为0）
Primal feasibility (原始可行性): $g_i(w^*) \le 0$ for all $i$ , $h_j(w^*) = 0$ for all $j$
Dual feasibility (对偶可行性): $\alpha_i^* \ge 0$ for all $i$
Complementary Slackness (互补松弛性): $\alpha_i^* g_i(w^*) = 0$ for all $i$