逻辑斯谛回归与最大熵模型logistic regression/maximum entropy model

最新推荐文章于 2021-10-27 10:09:04 发布

thinker_1120

最新推荐文章于 2021-10-27 10:09:04 发布

阅读量1.8k

点赞数

分类专栏：算法原理文章标签：机器学习算法

本文链接：https://blog.csdn.net/cymy001/article/details/78153036

版权

算法原理专栏收录该内容

31 篇文章 2 订阅

订阅专栏

本文是《统计学习方法》李航著学习笔记。
为了叙述方便，将logistic regression mode简称LR，maximum entropy mode简称ME。LR和ME都是判别模型，即将预测实例点分配到“条件概率分布”最大的类中。下述讨论会着重于LR模型和ME模型的学习过程。
逻辑斯谛函数：
$l(x)=\frac{1}{1+e^{-(x-\mu)/\gamma}}，\mu为位置参数，\gamma>0为形状参数$
逻辑斯谛分布：
$X$ 是连续型随机变量，如 $X\sim F(x)$ ，其中 $F (x)$ 是形如上述 $l (x)$ 的逻辑斯谛函数，则称 $X$ 服从逻辑斯谛分布，此时，随机变量 $X$ ：
$分布函数：F(x)=P(X\leq x)=\frac{1}{1+e^{-(x-\mu)/\gamma}}$
$密度函数：f(x)=F^{'}(x)=\frac{e^{-(x-\mu)/\gamma}}{\gamma(1+e^{-(x-\mu)/\gamma})^2}$
这里写图片描述
将上述分布函数变形，并记 $\frac{1}{\gamma}=\hat{w}，-\frac{\mu}{\gamma}=b$ ，则得类似于二类分类问题的logistic模型函数：
$F(x)=P(X\leq x)=\frac{e^{\frac{1}{\gamma}x-\frac{\mu}{\gamma}}}{1+e^{\frac{1}{\gamma}x-\frac{\mu}{\gamma}}}=\frac{exp(\hat{w}\cdot x+b)}{1+exp(\hat{w}\cdot x+b)}$
极大似然估计：
参考http://blog.csdn.net/cymy001/article/details/78016109

LR模型：

二项LR模型的条件概率分布：
$P(Y=1|x)=\frac{exp(\hat{w}\cdot x+b)}{1+exp(\hat{w}\cdot x+b)}\\ P(Y=0|x)=\frac{1}{1+exp(\hat{w}\cdot x+b)}$
上述 $x=(x^{(1)},x^{(2)},\cdots,x^{(n)})^{T}\in R^{n}$ 为训练数据的输入， $Y\in \{0,1\}$ 为训练数据的输出， $\hat{w}\in R^{n}，b\in R$ 是需要用训练数据集学习的模型参数。
记 $w=(\hat{w}^{T},b)^{T}，x=(x^{(1)},x^{(2)},\cdots,x^{(n)},1)$ ，二项LR模型的条件概率分布进一步化简：
$P(Y=1|x)=\frac{exp(w\cdot x)}{1+exp(w\cdot x)}\\ P(Y=0|x)=\frac{1}{1+exp(w\cdot x)}$
则对于给定的训练数据集 $T=\{(x_{1},y_{1}),(x_{2},y_{2}),\cdots,(x_{N},y_{N})\}$ ，其中 $x_{i}\in R^{n},y_{i}\in\{0,1\}$ ，每个样本点 $x_{i},y_{i})$ 的概率分布为
$P(Y=1|x_{i})^{y_{i}}P(Y=0|x_{i})^{1-y_{i}}$
训练数据集 $T$ 中的样本点联合概率分布为
$\prod_{i=1}^{N}P(Y=1|x_{i})^{y_{i}}P(Y=0|x_{i})^{1-y_{i}}$
上式也就是LR模型参数的似然函数，取对数得对数似然函数
$L(w)=\sum_{i=1}^{N}\big[y_{i}\log P(Y=1|x_{i})+(1-y_{i})\log P(Y=0|x_{i})\big]\\ =\sum_{i=1}^{N}\big[y_{i}(w\cdot x_{i})-\log(1+exp(w\cdot x_{i}))\big]$
采用极大似然估计求LR模型参数 $w$ ，就是对 $L (w)$ 求极大值，即无约束最优化问题。可以通过梯度下降法、牛顿法等求 $w^{*}=\mathop{argmax}_{w}L(w)$ ，将 $w^{*}$ 带回 $P (Y = 1 ∣ x), P (Y = 0 ∣ x)$ 即是训练数据集 $T$ 学习到的LR模型。

事件的几率：
$事件的几率=\frac{事件发生的概率}{事件不发生的概率}=\frac{事件发生的概率}{1-事件发生的概率}$
$事件的对数几率=\log(事件的几率)$
对于二项LR模型，“输出 $Y = 1$ ”这一事件发生的对数几率
$\log\Big(\frac{P(Y=1|x)}{1-P(Y=1|x)}\Big)=w\cdot x$
是关于输入 $x$ 的线性函数，这也是LR回归模型的名字由来。

多项LR模型：
输出随机变量 $Y$ 的取值范围是 $\{1,2,\cdots,K\}$ ，对应的LR模型是
$P(Y=k|x)=\frac{exp(w_{k}\cdot x)}{1+\sum\limits_{k=1}^{K-1}exp(w_{k}\cdot x)},k=1,2,\cdots,K-1$
$P(Y=K|x)=\frac{1}{1+\sum\limits_{k=1}^{K-1}exp(w_{k}\cdot x)}$
其中 $x，w_{k}\in R^{n+1}$ 。

—————————————————————————

最大熵原理：
学习概率模型时，在所有可能的概率分布模型中，熵最大的模型是最好的。在满足约束条件的模型集合中，选择熵最大的模型。熵的最大化表示等可能性。

模型获取训练数据集信息：
1.)给定训练数据集 $T$ ，联合分布 $P (X, Y)$ 的经验分布 $\widetilde{P}(X,Y)$ ，边缘分布 $P (X)$ 的经验分布 $\widetilde{P}(X)$ 依次为：
$\widetilde{P}(X=x,Y=y)=\frac{\nu(X=x,Y=y)}{|T|},\widetilde{P}(X=x)=\frac{\nu(X=x)}{|T|}$
其中 $\nu(X=x,Y=y)$ 表示训练数据集中样本 $(x, y)$ 出现的频数， $\nu(X=x)$ 表示训练数据集中样本输入 $x$ 出现的频次， $∣ T ∣$ 表示训练数据集样本容量。
2.)定义特征函数 $f (x, y)$ 满足：
$f(x,y)=\begin{cases} 1, &x与y满足某一事实\cr 0, &否则\end{cases}$

soso，若“特征函数 $f (x, y)$ 关于经验分布 $\widetilde{P}(X,Y)$ 的期望”：
$E_{\widetilde{P}}(f)=\sum_{x,y}\widetilde{P}(x,y)f(x,y)$
与“特征函数 $f (x, y)$ 关于学习到的条件概率分布模型 $P (Y ∣ X)$ 和经验分布 $\widetilde{P}(X)$ 的期望”：
$E_{P}(f)=\sum_{x,y}\widetilde{P}(x)P(y|x)f(x,y)$
相等，则表示“模型能够获取训练数据集的信息”，即 $E_{\widetilde{P}}(f)=E_{P}(f)$ 。

ME模型：

ME模型就是“满足 $E_{\widetilde{P}}(f)=E_{P}(f)$ 条件，并且使条件熵
$H(P)=-\sum\limits_{x,y}\widetilde{P}(x)P(y|x)\log P(y|x)$
最大的条件概率分布 $P (Y ∣ X)$ 模型”。 $\Leftrightarrow$ 如下优化问题：
$KaTeX parse error: No such environment: align* at position 7: \begin{̲a̲l̲i̲g̲n̲*̲}̲ &\max_{P\in C}…$
将上述优化问题转化成极小化 $\min\limits_{P\in C} -H(P)$ ，再有Lagrange乘子法，可得Lagrange函数 $L (P, w)$ ：
$L(P,w)=-H(P)+w_{0}\big(1-\sum_{y}P(y|x)\big)+\sum_{i=1}^{n}\big(E_{\widetilde{P}}(f_{})-E_{P}(f_{i})\big)$
则上述优化问题可 $\Leftrightarrow$ 转化为无约束优化问题：
$\min_{P\in C}\max_{w}L(P,w)$
由于 $L (P, w)$ 是 $P$ 的凸函数，进一步，优化问题可以转化成对偶问题：
$\max_{w}\min_{P\in C}L(P,w)$
a.)先求 $\min\limits_{P\in C}L(P,w)$ 得关于 $w$ 的条件概率分布 $P_{w}(y|x)$ ：
$\begin{cases} \frac{\partial L(P,w)}{\partial P(y|x)}=0 \cr \widetilde{P}(x)=0 \cr \sum\limits_{y}P(y|x)=1\end{cases} \Rightarrow \begin{cases} P_{w}(y|x)=\frac{1}{Z_{w}(x)}exp(\sum\limits_{i=1}^{n}w_{i}f_{i}(x,y)) \cr Z_{w}(x)=\sum\limits_{y}exp(\sum\limits_{i=1}^{n}w_{i}f_{i}(x,y))\end{cases}$
上式 $P_{w}(y|x)$ 即为最大熵模型，记
$\Phi(w)=\min_{P\in C}L(P,w)=L(P_{w},w) =\sum\limits_{x,y}\widetilde{P}(x,y)\sum_{i=1}^{n}w_{i}f_{i}(x,y)-\sum\limits_{x}\widetilde{P}(x)\log Z_{w}(x)$
称 $\Phi(w)$ 为“对偶函数”，此时优化目标可转化为
$\max_{w}\Phi(w)$
b.)到此为止，就可以采用改进的迭代尺度法或者拟牛顿法求解“ $\Phi(w)$ 关于 $w$ 的极大值问题”了。
改进的迭代尺度法：
假设最大熵模型的当前参数向量 $w=(w_{1},w_{2},\cdots,w_{n})^{T}$ ，希望找到一个新的参数向量 $w+\delta=(w_{1}+\delta_{1},w_{2}+\delta_{2},\cdots,w_{n}+\delta_{n})$ ，使模型的对偶函数值 $\Phi(w+\delta)>\Phi(w)$ 。
$\Phi(w+\delta)-\Phi(w)=\sum_{x,y}\widetilde{P}(x,y)\sum_{i=1}^{n}\delta_{i}f_{i}(x,y)-\sum_{x}\widetilde{P}(x)\log\frac{Z_{w+\delta}(x)}{Z_{w}(x)}\\ \geq\sum_{x,y}\widetilde{P}(x,y)\sum_{i=1}^{n}\delta_{i}f_{i}(x,y)+1-\sum_{x}\widetilde{P}(x)\sum_{y}P_{w}(y|x)exp(\sum_{i=1}^{n}\delta_{i}f_{i}(x,y))\triangleq A(\delta|w)$
由于指数项 $exp(\sum_{i=1}^{n}\delta_{i}f_{i}(x,y))$ 关于 $\delta_{i}$ 求导时无法分离 $\delta_{j},j\neq i$ ，所以利用Jensen不等式进一步降低下限，记 $f^{\sharp}(x,y)=\sum_{i}f_{i}(x,y)$ 为所有特征在 $(x, y)$ 出现的次数，于是有：
$A(\delta|w)=\sum_{x,y}\widetilde{P}(x,y)\sum_{i=1}^{n}\delta_{i}f_{i}(x,y)+1-\sum_{x}\widetilde{P}(x)\sum_{y}P_{w}(y|x)exp\Big(f^{\sharp}(x,y)\sum_{i=1}^{n}\frac{\delta_{i}f_{i}(x,y)}{f^{\sharp}(x,y)}\Big)\\ \geq \sum_{x,y}\widetilde{P}(x,y)\sum_{i=1}^{n}\delta_{i}f_{i}(x,y)+1-\sum_{x}\widetilde{P}(x)\sum_{y}P_{w}(y|x)\sum_{i=1}^{n}\frac{f_{i}(x,y)}{f^{\sharp}(x,y)}exp\Big(\delta_{i}f^{\sharp}(x,y)\Big)\triangleq B(\delta|w)$
由上式可见 $B(\delta|w)$ 关于 $\delta_{i}$ 求导可分离其余 $\delta_{j},j\neq i$ ，则由 $\frac{\partial B(\delta|w)}{\partial \delta_{i}}=0$ 得：
$\sum_{x,y}\widetilde{P}(x,y)f_{i}(x,y)=\sum_{x,y}\widetilde{P}(x)P_{w}(y|x)f_{i}(x,y)exp(\delta_{i}f^{\sharp}(x,y))$
由此式求解 $\delta_{i}$ 即可，这是一个一元函数求零点问题，当解析解不易求解时，可通过牛顿法、二分法等求解。

拟牛顿法BFGS算法：
$\min\limits_{w\in R^{n}}-\Phi(w)=\max\limits_{w\in R^{n}}\Phi(w)$
不同于改进的迭代尺度法，拟牛顿法直接处理的是多元函数的优化问题，记 $g(w)=-\nabla\Phi(w)$ ，则由拟牛顿条件 $B_{k}p_{k}=-g_{k}$ 更新参数 $w_{k}$ 每一步的迭代方向；由一维精确或不精确线性搜索方法进行步长搜索更新 $f(w^{(k)}+\lambda_{k}p_{k})=\min\limits_{\lambda\geq0}f(w^{(k)}+\lambda_{k}p_{k})$ ；由BFGS公式对类Hessian矩阵进行更新。

ME模型生成算法的问题转化：

（1.）学习概率模型时，在满足已有事实条件下，不确定部分按照“等可能”处理，转化成“最大熵原理”。
（2.）“最大熵模型”也就是“在满足约束的条件下，使条件熵最大的条件概率分布模型”，这是一个含等式约束的优化问题，通过Lagrange乘子法求解，进而转化成“对偶问题”，可以先求出“含参数的最大熵条件概率分布模型”。
（3.）对“含参数的最大熵条件概率分布模型”确定的“对偶函数”关于参数求极大值。A.)一种方法，可以通过“改进的迭代尺度法”求迭代参数序列，使“对偶函数”递增。以降低“对偶函数”增加幅度为代价，将“多变量参数优化”通过Jensen不等式转化成“单变量参数优化”问题。B.)另一种方法，可以直接利用拟牛顿法的BFGS等算法对“对偶函数”关于参数求极值。

最后，由于“最大熵模型 $P (y ∣ x)$ 关于训练数据集 $T$ 的联合概率分布的对数似然函数” $\Leftrightarrow$ “对偶函数”，所以“对偶函数的极大化” $\Leftrightarrow$ “最大熵模型的极大似然估计”：