读书笔记-统计学习方法-逻辑斯谛回归与最大熵模型

最新推荐文章于 2024-09-13 23:11:11 发布

del还想学习

最新推荐文章于 2024-09-13 23:11:11 发布

阅读量131

点赞数

分类专栏：机器学习笔记文章标签：概率论机器学习

本文链接：https://blog.csdn.net/qq_44497516/article/details/112788559

版权

机器学习同时被 2 个专栏收录

4 篇文章 0 订阅

订阅专栏

笔记

4 篇文章 0 订阅

订阅专栏

读书笔记-统计学习方法-逻辑斯谛回归与最大熵模型

逻辑斯谛回归模型

逻辑斯谛分布定义 设 $X$ 是连续随机变量， $X$ 服从逻辑斯谛分布是指 $X$ 具有下列分布函数和密度函数：
$P(X\le x) = \frac{1}{1+e^{-(x-\mu)/\gamma}} \\ f(x) = F'(x) = \frac{e^{-(x-\mu)/ \gamma }}{\gamma (1+e^{-(x-\mu)/ \gamma})^2}$
式中， $\mu$ 为位置参数， $\gamma >0$ 为形状参数。

逻辑斯谛回归模型定义 二项逻辑斯谛回归模型是如下的条件概率分布：
$\frac{\exp(w\cdot x+b)}{1+\exp (w \cdot x+b)} \\ P(P=0|x) = \frac{1}{1+\exp(w \cdot x +b)}$
这里， $\in R^n$ 是输入， $\in \{0,1\}$ 是输出， $\in R^n$ 和 $\in R$ 是参数， $w$ 称为权值向量， $b$ 称为偏置， $\cdot x$ 为 $w$ 和 $x$ 的内积。

将权值向量和输入向量加以扩充：
$w = (w^{(1)},w^{(2)},...,w^{(n)},b)^T\\ x = (x^{(1)},x^{(2)},...,x^{(n)},1)^T$
对数几率：
$\log \frac{P(Y=1|x)}{1-P(Y=1|x)} = w \cdot x$

模型参数估计

设
$\pi(x),P(Y=0|x) = 1-\pi(x)$
似然函数为
$\prod_{i=1}^{N} [\pi (x_i)]^{y_i}[1-\pi (x_i)]^{1-y_i}$
对数似然函数为
$\begin{aligned} L(w) &= \sum_{i=1}^N [y_i\log \pi(x_i)+(1-y_i)\log(1-\pi(x_i))] \\ &= \sum_{i=1}^N [y_i\log\frac{\pi(x_i)}{1-\pi(x_i)}+\log(1-\pi(x_i))]\\ &= \sum_{i=1}^N [y_i(w \cdot x_i)-\log (1+\exp (w \cdot x_i))] \end{aligned}$
对 $L (w)$ 求极大值，得到 $w$ 的估计值 $\hat{w}$ ，学到的逻辑斯谛回归模型为：
$P(Y=1|x)=\frac{\exp (\hat{w} \cdot x)}{1+\exp (\hat{w}\cdot x)} \\ P(Y=0|x) = \frac {1}{1+\exp(\hat{w}\cdot x)}$
多项逻辑斯谛回归模型
$\frac{\exp (w_k \cdot x)}{1+\sum_{k=1}^{K-1}\exp (w_k \cdot x)},k=1,2,...,K-1\\ P(Y=K|x) = \frac{1}{1+\sum_{k=1}^{K-1} \exp (w_k \cdot x)}$
式中， $x\in R^{n+1}$ ， $w_k \in R^{n+1}$ 。

最大熵模型定义

给定训练数据集，可以确定联合分布 $P (X, Y)$ 的经验分布和边缘分布 $P (X)$ 的经验分布，分别以 $\tilde{P}(X,Y)$ 和 $\tilde{P}(X)$ 表示：
$\tilde{P}(X=x,Y=y) = \frac {\nu (X=x,Y=y)}{N}\\ \tilde{P}(X=x) = \frac{\nu (X=x)}{N}$
其中， $\nu (X=x,Y=y)$ 表示训练数据中样本 $(x, y)$ 出现的频数， $\nu (X=x)$ 表示训练数据中输入 $x$ 出现的频数， $N$ 表示训练样本容量。

用**特征函数（feature function） $f (x, y)$ **描述输入 $x$ 和输出 $y$ 之间的某一个事实：
$\begin{cases} 1，x与y满足某一事实\\ 0，否则 \end{cases}$
特征函数 $f (x, y)$ 关于经验分布 $\tilde{P}(X,Y)$ 的期望值，用 $E_{\tilde{P}}(f)$ 表示：
$E_{\tilde{P}}(f) = \sum_{x,y} \tilde{P}(x,y)f(x,y)$
特征函数 $f (x, y)$ 关于模型 $P (Y ∣ X)$ 与经验分布 $\tilde{P}(X)$ 的期望值，用 $E_P(f)$ 表示：
$E_P(f) = \sum_{x,y} \tilde{P}(x)P(y|x)f(x,y)$
如果模型能盖获取训练数据中的信息，那么就可以假设这两个期望值相等，即
$E_P(f) = E_{\tilde{P}}(f)$
或
$\sum_{x,y} \tilde{P}(x) P(y|x)f(x,y) = \sum_{x,y} \tilde{P}(x,y)f(x,y)$
将式（13）或（14）作为模型学习的约束条件，假设有 $n$ 个特征函数 $f_i(x,y),i=1,2,...,n$ ，那么就有 $n$ 个约束条件。

假设满足所有约束条件的模型集合为
$\mathcal C \equiv \{ P\in \mathcal{P}|E_P(f_i) = E_{\tilde{P}}(f_i),i=1,2,...,n \}$
定义在条件概率分布 $P (Y ∣ X)$ 上的条件熵为
$-\sum_{x,y} \tilde{P}(x) P(y|x) \log P(y|x)$
则模型集合 $\mathcal C$ 中条件熵 $H (P)$ 最大的模型称为最大熵模型。式中的对数为自然对数。

最大熵模型的学习

最大熵模型的学习等价于约束最优化问题：
$\max_{P\in \mathcal{C}}\space H(P) = -\sum_{x,y} \tilde{P}(x) P(y|x) \log P(y|x)\\ s.t.\space E_P(f_i) = E_{\tilde{P}}(f_i),i=1,2,...,n\\ \sum_{y} P(y|x) = 1$
按照最优化问题的习惯，将求最大值问题改写为等价的求最小值问题：
$\min_{P\in \mathcal{C}} \space -H(P) = \sum_{x,y} \tilde{P}(x) P(y|x)\log P(y|x)\\ s.t. \space E_p(f_i) - E_{\tilde{P}}(f_i) = 0,i=1,2,...,n\\ \sum_{y} P(y|x) = 1$
将约束最优化的原始问题转换为无约束最优化的对偶问题，通过求解对偶问题求解原始问题。

首先，引进拉格朗日乘子 $w_0,w_1,w_2,...,w_n$ ，定义拉格朗日函数 $L (P, w)$ ：
$\begin{aligned} L(P,w) &\equiv -H(P) + w_0 \bigg(1-\sum_{y} P(y|x) \bigg)+\sum_{i=1}^n w_i(E_{\tilde{P}}(f_i)-E_P(f_i))\\ &= \sum_{x,y} \tilde{P}(x) P(y|x) \log P(y|x) + w_0 \bigg( 1-\sum_y P(y|x) \bigg) +\\ &\sum_{i=1}^n w_i \bigg( \sum_{x,y} \tilde{P}(x,y)f_i(x,y)-\sum_{x,y} \tilde{P}(x) P(y|x) f_i(x,y) \bigg)\\ \end{aligned}$
最优化的原始问题是
$\min_{P\in \mathcal{C}} \max_w L(P,w)$
对偶问题是
$\max_w \min_{P\in \mathcal{C}} L(P,w)$
首先，求解对偶问题（20）内部的极小化问题 $\min_{P \in \mathcal{C}} L(P,w)$ ，记作
$\Psi (w) = \min_{P\in \mathcal{C}} L(P,w) = L(P_w,w)$
$\Psi(w)$ 称为对偶函数，将其解记作
$P_w = \arg \min_{P \in \mathcal{C}} L(P,w) = P_w(y|x)$
具体地，求 $L (P, w)$ 对 $P (y ∣ x)$ 的偏导数
$\frac{\partial L(P,w)}{\partial P(y|x)} = \sum_{x,y} \tilde{P}(x)(\log P(y|x)+1)-\sum_y w_0 - \sum_{x,y} \bigg( \tilde{P}(x) \sum_{i=1}^n w_i f_i(x,y) \bigg)\\ = \sum_{x,y} \tilde{P}(x) \bigg( \log P(y|x)+1-w_0-\sum_{i=1}^n w_i f_i(x,y) \bigg)$
令偏导数等于 $0$ ，在 $\tilde{P}(x) > 0$ 的情况下，解得
$\exp \bigg( \sum_{i=1}^n w_if_i(x,y) +w_0-1 \bigg) = \frac{\exp\big (\sum_{i=1}^n w_if_i(x,y) \big)}{\exp(1-w_0)}$
由于 $\sum_y P(y|x) =1$ ，得
$P_w (y|x) = \frac{1}{Z_w(x)} \exp \bigg( \sum_{i=1} ^n w_i f_i(x,y) \bigg)$
其中，
$Z_w(x) = \sum_y \exp \bigg( \sum_{i=1}^n w_i f_i(x,y) \bigg)$
$Z_w(x)$ 称为规范化银子； $f (x, y)$ 是特征函数； $w_i$ 是特征的权值。式（25）（26）为最大熵模型

之后求解对偶问题外部的极大化问题
$\max_w \Psi (w)$
将其解记为 $w^*$ ，即
$w^* = \arg \max_w \Psi(w)$

模型学习的最优化算法

改进的迭代尺度算法（improved iterative scaling,IIS）

输入：特征函数 $f_1,f_2,...,f_n$ ；经验分布 $\tilde{P}(X,Y)$ ，模型 $P_w(y|x)$ ；

输出：最优参数值 $w_i^*$ ；最优模型 $P_{w^*}$ 。

对所有 $i\in\{1,2,...,n\}$ ，取初值 $w_i=0$ ；
对每一 $i\in\{1,2,...,n\}$

a. 令 $\delta_i$ 是方程
$\sum_{x,y}\tilde{P}(x) P(y|x)f_i(x,y)\exp(\delta_i f^\#(x,y)) = E_{\tilde{P}}(f_i)$
的解，这里
$f^\# (x,y) = \sum_{i=1}^n f_i(x,y)$
b. 更新 $w_i$ 的值： $w_i \leftarrow w_i + \delta_i$ 。
如果不是所有 $w_i$ 都收敛，重复步（2）。

算法关键是求解方程（30）中的 $\delta_i$ 。如果 $f^\#(x,y)$ 是常数，即对任何 $x, y$ ，有 $f^\#(x,y) = M$ ，那么 $\delta_i$ 可以显示地表示成
$\delta_i = \frac{1}{M} \log \frac{E_{\tilde{P}}(f_i)}{E_P(f_i)}$
如果 $f^\#(x,y)$ 不是常熟，那么必须通过数值计算求 $\delta_i$ 。简单有效的方法是牛顿法，以 $g(\delta_i)=0$ 表示方程（30），牛顿法通过迭代球的 $\delta_i^*$ ，使得 $g(\delta_i^*)=0$ ：
$\delta_i^{(k+1)}=\delta_i^{(k)} - \frac{g(\delta_i^{(k)})}{g'(\delta_i^{(k)})}$
拟牛顿法（BFGS）

输入：特征函数 $f_1,f_2,...,f_n$ ；经验分布 $\tilde{P}(x,y)$ ，目标函数 $f (w)$ ，梯度 $g(w)=\nabla f(w)$ ，精度要求 $\varepsilon$ ；

输出：最优参数值 $w^*$ ；最优模型 $P_{w^*}(y|x)$ 。

选定初始点 $w^{(0)}$ ，取 $B_0$ 为正定对称矩阵，置 $k = 0$ ；
计算 $g_k = g(w^{(k)})$ 。若 $||g_k||<\varepsilon$ ，则停止计算，得 $w^* = w^{(k)}$ ；否则转（3）；
由 $B_k p_k = -g_k$ 求出 $p_k$ ；
一维搜索：求 $\lambda _k$ 使得
$f(w^{(k)}+\lambda_k p_k) = \min_{\lambda \ge 0} f(w^{(k)} + \lambda p_k)$
置 $w^{(k+1)} = w^{(k)} + \lambda_k p_k$ ；
计算 $g_{k+1}=g(w^{(k+1)})$ ，若 $||g(w^{(k+1)})||<\varepsilon$ ，则停止计算，得 $w^* = w^(k+1)$ ；否则，按下式求出 $B_{k+1}$ ：
$B_{k+1} = B_k + \frac{y_k y_k ^T}{y_k^T \delta_k} - \frac{B_k\delta_k \delta_k^T B_k}{\delta_k^T B_k \delta_k}$
其中
$y_k = g_{k+1}-g_k,\space \delta_k = w^{(k+1)} - w^{(k)}$
置 $k = k + 1$ ，转步(3)。