《统计学习方法》（第六章）—— 逻辑斯谛回归与最大熵模型

最新推荐文章于 2024-04-25 16:07:30 发布

mkopvec

最新推荐文章于 2024-04-25 16:07:30 发布

阅读量247

点赞数

分类专栏：机器学习

本文链接：https://blog.csdn.net/mkopvec/article/details/90523765

版权

机器学习专栏收录该内容

14 篇文章 0 订阅

订阅专栏

逻辑斯谛回归模型

逻辑斯谛分布

定义：设X是连续随机变量， $X$ 服从罗辑斯谛分布是指 $X$ 具有下列分布函数和密度函数：
$F(x)=P(X\le x)=\frac{1}{1+e^{-\frac{-(x-\mu)}{\gamma}}}$
$f(x)=F^\prime(x)=P(X\le x)=\frac{e^{\frac{-(x-\mu)}{\gamma}}}{\gamma(1+e^{-\frac{-(x-\mu)}{\gamma}})^2}$ 式中 $\mu$ 为位置参数, $\gamma>0$ 为形状参数，其以 $(\mu,\frac{1}{2})$ 为中心对称点，即满足 $F(-x+\mu)-\frac{1}{2}=-F(x+\mu)+\frac{1}{2}$ 在中心增长速度快，两端速度慢， $\gamma$ 越小在中心增长越快

二项式逻辑斯谛回归模型

定义：二项式逻辑斯谛回归模型是如下条件概率分布：
$P(y=1|x)=\frac{\exp(w\cdot x+b)}{1+\exp(w\cdot x+b)}$

$P(y=0|x)=\frac{1}{1+\exp(w\cdot x+b)}$
这里， $\in R^n$ 是输入， $\in \{0,1\}是输出,$ $\in R^n$ 和 $\in R$ 是参数， $w$ 称为权值向量， $b$ 为偏值， $\cdot x$ 为 $w$ 和 $x$ 的内积，扩充 $w=(w^1,w^2,...w^n,b)^T,x=(x^1,x^2,...,x^m,1)^T$ ,则$w $
几率定义:发生概率与不发生概率的比值， $\frac{p}{1-p}$ 对数几率, $logit(p)=\log\frac{p}{1-p}$
对于逻辑斯谛回归模型， $\log \frac{P(y=1|x)}{1-P(y=1|x)}=w \cdot x$

模型参数估计

设:
$P(y=1|x)=\pi(x),P(y=0|x)=1-\pi(x)$
似然函数为
$\prod\limits_{i=1}^N[\pi(x_i)]^{y_i}[1-\pi(x_i)]^{1-y_i}$
对数似然函数为 $L(w)=\sum\limits_{i=1}^N[y_i\log\ \pi(x_i)+(1-y_i)\log\ (1-\pi(x_i))]$
$=\sum\limits_{i=1}^N[y_i\log\ \frac{\pi (x_i)}{1-\pi(x_i)}+\log\ (1-\pi(x_i))]$
$=\sum\limits_{i=1}^N[y_i(w \cdot x_i)-\log\ (1+\exp(w \cdot x_i)]$
对 $L (w)$ 求极大值，得到 $w$ 的估计

多项式逻辑斯谛回归

$P(y=k|x)=\frac{\exp(w_k \cdot x)}{1+\sum\limits_{k=1}^{K-1}\exp(w_k \cdot x)}$ 其中 $k = 1, 2, . . ., K - 1$

$P(y=K|x)=\frac{1}{1+\sum\limits_{k=1}^{K-1}\exp(w_k \cdot x)}$

最大熵模型

最大熵模型是由最大熵原理推导实现。

最大熵原理

最大熵原理认为学习概率模型时，在所有可能的概率模型里，熵最大的模型是最好的模型。
$H(P)=-\sum\limits_xP(x)\log \ P(x)$ ,满足 $\le H(P)\le \log\ |X|$ ,其中 $∣ X ∣$ 是X的取值个数.在约束条件下，那些不确定的事件是等可能的是最好的.

最大熵模型的定义

假设分类模型是一个条件概率分布 $P (Y ∣ X)$ ,给定一个训练数据集
$T=\{ (x_1,y_1),(x_2,y_2),...,(x_N,y_N)\}$ ,学习目标是利用最大熵选择最好的模型
首先确定 $P (X, Y)$ 和 $P (X)$ 的经验分布
$\hat{P}(X=x,Y=y)=\frac{v(X=x,Y=y)}{N}$
$\hat{P}(X=x)=\frac{v(X=x)}{N}$
其中 $v (X = x)$ 为样本中 $X = x$ 的个数， $v (X = x, Y = y)$ 同理.
用特征函数 $f (x, y)$ 描述输入 $x$ 和输出 $y$ 之间某一事实
$f(x,y)=\begin{cases} 1 & x,y满足某一事实\\ 0 & 其他\\ \end{cases}$
则特征函数关于经验分布 $\hat{P}(X,Y)$ 的期望值，用 $E_{\hat{P}}(f)$ 表示
$E_{\hat{P}}(f)=\sum\limits_{x,y}\hat{P}(x,y)f(x,y)$
特征函数关于模型 $P (Y ∣ X)$ 与经验分布 $\hat{P}$ 的期望值,用 $E_{P}(f)$ 表示
$E_{P}(f)=\sum\limits_{x,y}\hat{P}(x)P(y|x)f(x,y)$
如果模型能够获取训练数据的信息，则
$E_{\hat{P}}(f)=E_{P}(f)$

定义
假设满足所有约束条件的模型集合为
$C=\{P \in \rho |E_{\hat{P}}(f_i)=E_{P}(f_i),i=1,2,...,n\}$
定义在条件概率分布 $P (Y ∣ X)$ 上的条件熵为
$H(P)=-\sum\limits_{x,y}\hat{P}(x)P(y|x)\log\ P(y|x)$
则模型集合 $C$ 中条件熵最大的模型称为最大熵模型

最大熵模型的学习

$\min\limits_{P \in C}\ \ \ \ \ \ \ \ \ \ -H(P)=\sum\limits_{x,y}\hat{P}(x)P(y|x)\log\ P(y|x)$
$s . t .$
$E_{\hat{P}}(f_i)=E_{P}(f_i)$
$\sum\limits_yP(y|x)=1$
引入拉格朗日乘子 $w_0,w_1,...,w_n$ 定义拉格朗日函数 $L (P, w)$
$L(P,w)=-H(P)+w_0(1-\sum\limits_yP(y|x))+\sum\limits_{i=1}^nw_i(E_{\hat{P}}(f_i)-E_{P}(f_i))$
$=\sum\limits_{x,y}\hat{P}(x)P(y|x\log \ P(y|x)+w_0(1-\sum\limits_yP(y|x))+$
$\sum\limits_{i=1}^nw_i(\sum\limits_{x,y}\hat{P}(x,y)f(x,y)-\sum\limits_{x,y}\hat{P}(x)P(y|x)f(x,y))$
最优的原始问题是 $\min\limits_{P \in C} \ \max\limits_w \ L(P,w)$
则对偶问题为 $\max\limits_{w} \ \min\limits_{P \in C} \ L(P,w)$
$\frac{\partial L(P,w)}{\partial P(y|x)}=\sum\limits_{x,y} \hat{P}(x)(\log \ P(y|x)+1)-\sum\limits_yw_0-\sum\limits_{x,y}(\hat{P}(x)\sum\limits_{i=1}^nw_if_i(x,y))$
$=\sum\limits_{x,y}\hat{P}(x)(\log \ P(y|x)+1-w_0-\sum\limits_{i=1}^nw_if_i(x,y))=0$
则
$P(y|x)=\exp(\sum\limits_{i=1}^nw_if_i(x,y)+w_0-1)=\frac{\exp(\sum\limits_{i=1}^nw_if_i(x,y))}{\exp(1-w_0)}$
又由
$\sum\limits_yP(y|x)=1$

$P_w(y|x)=\frac{1}{Z_w(x)}\exp(\sum\limits_{i=1}^nw_if_i(x,y))$
其中
$Z_w(x)=\sum\limits_y\exp(\sum\limits_{i=1}^nw_if_i(x,y))$
把以上代入 $L (P, w)$ 后，我们只需要最大化求解 $w$ 即可

极大似然估计

设极大似然估计
$L_{\hat{P}}(P_w)=\log \ \prod\limits_{x,y}P(y|x)^{\hat{P}(x,y)}=\sum\limits_{x,y}\hat{P}(x,y)\log P(y|x)$
$=\sum\limits_{x,y}\hat{P}(x,y)\sum\limits_{i=1}^nw_if_i(x,y)-\sum\limits_{x,y}\hat{P}(x,y)\log Z_w(x)$
$=\sum\limits_{x,y}\hat{P}(x,y)\sum\limits_{i=1}^nw_if_i(x,y)-\sum\limits_{x}\hat{P}(x)\log Z_w(x)$
又对偶函数
$\psi(w)=\sum\limits_{x,y}\hat{P}(x)P_w(y|x)\log P_w(y|x)+$
$\sum\limits_{i=1}^nw_i(\sum\limits_{x,y}\hat{P}(x,y)f_i(x,y)-\sum\limits_{x,y}\hat{P}(x)P_w(y|x)f_i(x,y))$
$=\sum\limits_{x,y}\hat{P}(x,y)\sum\limits_{i=1}^nw_if_i(x,y)+\sum\limits_{x,y}\hat{P}(x)P_w(y|x)(\log P_w(y|x)-\sum\limits_{i=1}^nw_if_i(x,y)$
$=\sum\limits_{x,y}\hat{P}(x,y)\sum\limits_{i=1}^nw_if_i(x,y)-\sum\limits_{x,y}\hat{P}(x)P_w(y|x)\log Z_w(x)$
$=\sum\limits_{x,y}\hat{P}(x,y)\sum\limits_{i=1}^nw_if_i(x,y)-\sum\limits_{x}\hat{P}(x)\log Z_w(x)$

在最大熵模型下对偶最大化等价于极大似然估计.

模型学习的最优化算法

改进迭代尺度法
梯度下降法
牛顿法
拟牛顿法

改进的迭代尺度法

希望求的 $\varrho=(\varrho_1,\varrho_2,...,\varrho_n)$ ,使 $w+\varrho$ 优于 $w$
$L(w+\varrho)-L(w)=\sum\limits_{x,y}\hat{P}(x,y)\log P_{w+\varrho}(y|x)-\sum\limits_{x,y}\hat{P}(x,y)\log P_w(y|x)$
$=\sum\limits_{x,y}\hat{P}(x,y)\sum\limits_{i=1}^n\varrho_if_i(x,y)-\sum\limits_{x}\hat{P}(x)\log \frac{Z_{w+\varrho}(x)}{Z_w(x)}$
又
$-\log a \ge 1-a,a>0$
得
$L(w+\varrho)-L(w)\ge \sum\limits_{x,y}\hat{P}(x,y)\sum\limits_{i=1}^n\varrho_if_i(x,y)+1-\sum\limits_{x}\hat{P}(x)\frac{Z_{w+\varrho}(x)}{Z_w(x)}$
$=\sum\limits_{x,y}\hat{P}(x,y)\sum\limits_{i=1}^n\varrho_if_i(x,y)+1-\sum\limits_{x}\hat{P}(x)\sum\limits_{y}P_w(y|x)\exp \sum\limits_{i=1}^n\varrho_if_i(x,y)$
记右端为
$A(\varrho|w)=\sum\limits_{x,y}\hat{P}(x,y)\sum\limits_{i=1}^n\varrho_if_i(x,y)+1-\sum\limits_{x}\hat{P}(x)\sum\limits_{y}P_w(y|x)\exp \sum\limits_{i=1}^n\varrho_if_i(x,y)$
于是
$L(w+\varrho)-L(w)\ge A(\varrho|w)$
但 $\varrho$ 为向量不易优化故继续化简
定义
$f^\#(x,y)=\sum\limits_{i}f_i(x,y)$
$A(\varrho|w)=\sum\limits_{x,y}\hat{P}(x,y)\sum\limits_{i=1}^n\varrho_if_i(x,y)+1-\sum\limits_x\hat{P}(x)\sum\limits_{y}P_w(y|x)\exp(f^\#(x,y)\sum\limits_{i=1}^n\frac{\varrho_if_i(x,y)}{f^\#(x,y)})$
又 $\frac{f_i(x,y)}{f^\#(x,y)}\ge0$ 且 $\sum\limits_{i=1}^n\frac{f_i(x,y)}{f^\#(x,y)}=1$
根据Jensen不等式
$\exp(\sum\limits_{i=1}^n\frac{f_i(x,y)}{f^\#(x,y)}\varrho_if^\#(x,y))\le\sum\limits_{i=1}^n\frac{f_i(x,y)}{f^\#(x,y)}\exp(\varrho_if^\#(x,y))$
于是 $A(\varrho|w)\ge B(\varrho|w)=\sum\limits_{x,y}\hat{P}(x,y)\sum\limits_{i=1}^n\varrho_if_i(x,y)+1-\sum\limits_x\hat{P}(x)\sum\limits_{y}P_w(y|x)\sum\limits_{i=1}^n(\frac{f_i(x,y)}{f^\#(x,y)})\exp(\varrho_if^\#(x,y))$
得到
$L(w+\varrho)-L(w)\ge B(\varrho|w)$

$\frac{\partial B(\varrho|w)}{\partial \varrho}=\sum\limits_{x,y}\hat{P}(x,y)f_i(x,y)-\sum\limits_x\hat{P}(x)\sum\limits_yP_w(y|x)f_i(x,y)\exp(\varrho_if^\#(x,y))=0$
得
$\sum\limits_x\hat{P}(x)\sum\limits_yP_w(y|x)f_i(x,y)\exp(\varrho_if^\#(x,y))=E_{\hat{P}}(f_i)$

算法
输入:特征函数 $f_1,f_2,...,f_n$ ,经验分布 $\hat{P}(X,Y)$ ,模型 $P_w(y|x)$
输出:最优参数 $w^*$
$(1)$ 对所有 $\in \{1,2,...,n\}$ ,取 $w_i=0$
$(2)$ 对每个 $i$ 求方程
$\sum\limits_x\hat{P}(x)\sum\limits_yP_w(y|x)f_i(x,y)\exp(\varrho_if^\#(x,y))=E_{\hat{P}}(f_i)$
$w_i \longleftarrow w_i+\varrho_i$
$(3)$ 如果不是所有 $w_i$ 收敛则重复(2)

拟牛顿法

对于最大熵模型
目标函数:
$\min\limits_{w \in R^n}\ \ \ \ \ \ \ \ \ \ f(w)=\sum\limits_x\hat{P}(x)\log \exp(\sum\limits_{i=1}^nw_if_i(x,y))-\sum\limits_{x,y}\hat{P}(x,y)\sum\limits_{i=1}^nw_if_i(x,y)$
则梯度为
$\ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ g(w)=(\frac{\partial f(w)}{\partial w_1},\frac{\partial f(w)}{\partial w_2},...,\frac{\partial f(w)}{\partial w_n})^T$

$\ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \frac{\partial f(w)}{\partial w_i}=\sum\limits_{x,y}\hat{P}(x)P_w(y|x)f_i(x,y)-E_{\hat{P}}(f_i)$

算法
输入:特征函数 $f_1,f_2,...,f_n$ ,经验分布 $\hat{P}(x,y)$ ,目标函数 $f (w)$ ,梯度 $g(w)=\bigtriangledown f(w)$ ，精度要求 $\ \ \varepsilon$
输出:最优参数 $w^*$
$(1)$ 选定初始点 $w^{(0)},$ 取 $B_0$ 为正定对称矩阵, $k = 0$
$(2)$ 计算 $g_k=g(w^{(k)})$ ,如果 $||g_k||<\varepsilon$ ,则停止计算，取 $w^*=w^{(k)}$ ,否则转(3)
$(3)$ 由 $B_kp_k=-g_k$ 求出 $p_k$
$(4)$ 一维搜索求 $\lambda_k$
$f(w^{(k)}+\lambda_kp_k)=\min\limits_{\lambda\ge0}f(w^{(k)}+\lambda p_k)$
$(5)$ $w^{(k+1)}=w^{(k)}+\lambda_kp_k$
$(6)$ 计算 $g_{k+1}=g(w^{(k+1)})$ 如果 $||g_{k+1}||<\varepsilon$ 则停止，得到 $w=w^{(k+1)}$ 否则计算 $B_{k+1}$
$B_{k+1}=B_k+\frac{y_ky_k^T}{y_k^T\varrho_k}-\frac{B_k\varrho_k\varrho_k^TB_k}{\varrho_k^TB_k\varrho_k}$ 其中 $y_k=g_{k+1}-g_k,\varrho_k=w^{(k+1)}-w{(k)}$
$(7)$ $k = k + 1$ ,转 $(3)$