逻辑斯蒂回归和最大熵模型

最新推荐文章于 2022-05-28 13:58:19 发布

yougwypf1991

最新推荐文章于 2022-05-28 13:58:19 发布

阅读量269

点赞数

分类专栏：人工智能机器学习文章标签：逻辑回归最大熵模型

本文链接：https://blog.csdn.net/KangKermit/article/details/106695210

版权

人工智能同时被 2 个专栏收录

24 篇文章 0 订阅

订阅专栏

机器学习

23 篇文章 0 订阅

订阅专栏

1 逻辑回归模型

1.1 逻辑斯蒂分布

设 $X$ 是连续随机变量， $X$ 服从逻辑斯蒂分布是指 $X$ 具有下列分布函数和密度函数：
$F(x)=P(X\leq x)=\frac{1}{1+e^{-\frac{x-\mu}{\gamma}}} \\ f(x)=F^{'}(x)=\frac{e^{-\frac{x-\mu}{\gamma}}}{\gamma(1+e^{-\frac{x-\mu}{\gamma}})^2}$
其中， $\mu$ 为位置参数， $\gamma \gt 0$ 为形状参数。
它们的函数图像分别为：
在这里插入图片描述

分布函数属于逻辑斯蒂函数，其图形是一条S形曲线(sigmoid)。曲线以点 $(\mu,\frac{1}{2})$ 为中心对称，即：
$F(-x+\mu)-\frac{1}{2}=-F(x-\mu)+\frac{1}{2}$

1.2 二项逻辑蒂斯回归模型

它是一种分类模型，是由条件概率 $P (Y ∣ X)$ 表示的，表示为：
$P(Y=1|x)=\frac{e^{\omega .x + b}}{1+e^{\omega .x + b}} \\ P(Y=0|x)=\frac{1}{1+e^{\omega .x + b}}$
其中， $x\in R^n$ 是输入， $Y\in \{0,1\}$ 是输出， $\omega\in R^n$ 和 $b\in R$ 是分别是权值向量和偏置。
对于给定输入实例 $x$ ，按照上式分别求得 $P (Y = 1 ∣ x)$ 和 $P (Y = 0 ∣ x)$ ，逻辑蒂斯回归比较两个条件概率的大小，将实例x分到概率值较大的那一类。
若将 $\omega$ 记作 $\omega=(\omega_1,\omega_2,...,\omega_n,b)^T$ ，将 $x$ 记作 $x=(x_1,x_2,...,x_n)^T$ ，则模型可以表示为：
$P(Y=1|x)=\frac{e^{\omega .x}}{1+e^{\omega .x}} \\ P(Y=0|x)=\frac{1}{1+e^{\omega .x}}$

逻辑蒂斯回归模型的特点

一个事件的几率( $p$ )是指该事件发生的概率与该事件不发生的概率( $1 - p$ )的比值( $\frac{p}{1-p}$ )，该事件的对数几率为：
$logit^{(p)}=log\frac{p}{1-p}$
在逻辑斯蒂回归中， $p = P (Y = 1 ∣ x)$ ，那么有：
$log\frac{P(Y=1|x)}{1-P(Y=1|x)}=\omega .x$
即在逻辑斯蒂回归模型中，输出 $Y = 1$ 的对数几率是输入 $x$ 的线性函数，或输出 $Y = 1$ 的对数几率是由输入 $x$ 的线性函数表示的模型，是为逻辑斯蒂回归模型。

模型学习

在进行模型学习时，对于给定的训练数据集 $T=\{(x_1,y_1),(x_2,y_2),...,(x_N,y_N)\}$ ，其中 $x_i\in R^n$ ， $y_i\in \{0,1\}$ ，使用极大似然估计法估计模型参数，从而得到逻辑斯蒂回归模型。
设：
$P(Y=1|x)=\pi(x) \\ P(Y=0|X)=1-\pi(x)$
那么其似然函数为：
$\prod_{i=1}^{N}[\pi(x_i)]^{y_i}[1-\pi(x_i)]^{1-y_i}$
对数似然函数为：
$L(\omega)=\sum_{i=1}^{N}[y_ilog\pi(x_i)+(1-y_i)log(1-\pi(x_i))] \\ =\sum_{i=1}^{N}[y_i log\frac{\pi(x_i)}{1-\pi(x_i)}+log(1-\pi(x_i))] \\ =\sum_{i=1}^{N}[y_i(\omega.x_i)-log(1+e^{\omega.x_i})]$
对 $L(\omega)$ 求极大值，即可得到 $\omega$ 的估计值。问题就转化为以对数似然函数为目标函数的最优化问题，逻辑斯蒂回归学习中通常采用的方法时梯度下降及牛顿法。

1.3 多项逻辑蒂斯回归模型

在多项式逻辑斯蒂回归模型中， $Y$ 的取值变了， $Y$ 的取值集合是 ${1,2,...,K\}$ ，多项式逻辑斯蒂回归模型是：
$P(Y=k|x)=\frac{e^{\omega_k.x}}{1+\sum_{k=1}^{K-1}e^{\omega_k.x}} \\ P(Y=K|x)=\frac{1}{1+\sum_{k=1}^{K-1}e^{\omega_k.x}}$
将二项逻辑蒂斯回归的参数估计推广过来也可对其参数进行估计

2 最大熵模型

2.1 最大熵原理

最大熵原理是概率模型学习的一个准则，即学习概率模型时，在所有可能的概率模型(分布)中，熵最大的模型是最好的模型。通常用约束条件来确定概率模型的集合，所以最大熵原理也可以表述为在满足约束条件的模型集合中选取熵最大的模型。
假设离散随机变量 $X$ 的概率分布是 $P (X)$ ，则其熵是：
$H(P)=-\sum_xP(x)logP(x)$
且其满足：
$\leq H(P) \leq log|X|$
其中， $∣ X ∣$ 是 $X$ 的取值个数，当且仅当 $X$ 的分布是均匀分布时右边的等号成立，也就是说当 $X$ 服从均匀分布时的熵最大。
最大熵原理认为要选择的概率模型首先必须满足已有的事实，即约束条件。在没有更多信息的情况下，哪些不确定的部分都是“等可能的”。最大熵原理通过熵的最大化来表示等可能性。“等可能”不容易操作，而熵则是一个可以优化的指标。

2.2 模型解释

其实最大熵原理只是统计学习的一般原理，将其应用于分类，即得到最大熵模型。假设分类模型是一个条件概率分布 $P (Y ∣ X)$ ， $X$ 和 $Y$ 分别表示输入和输出，这个模型表示的是对于给定的输入 $X$ ，以条件概率 $P (Y ∣ X)$ 输出 $Y$ 。给定一个训练集T，学习的目标就是用最大熵原理选择最好的分类模型。
对于给定的训练数据集，可以确定联合分布 $P (X, Y)$ 的经验分布和边缘分布 $P (X)$ 的经验分布，分布使用 $\tilde{P}(X,Y)$ 和 $\tilde{P}(X)$ 表示，这里：
$\tilde{P}(X=x,Y=y)=\frac{v(X=x,Y=y)}{N} \\ \tilde{P}(X=x)=\frac{v(X=x)}{N}$
其中 $v (X = x, Y = y)$ 表示训练数据集中样本 $(x, y)$ 出现的频数， $v (X = x)$ 表示训练数据集中输入 $x$ 出现的频数， $N$ 表示样本容量。
用特征函数 $f (x, y)$ 描述输入 $x$ 和输出 $y$ 之间的某一个事实：
$\begin{cases} 1,\ \ x与y满足某一事实 \\ 0,\ \ 否则 \end{cases}$
可以求得特征函数关于经验分布 $\tilde{P}(X=x,Y=y)$ 的期望为：
$E_{\tilde{P}}(f)=\sum_{x,y}\tilde{P}(X=x,Y=y)f(x,y)$
特征函数关于模型 $P (Y ∣ X)$ 与经验分布 $\tilde{P}(X)$ 的期望为：
$E_P(f)=\sum_{x,y}\tilde{P}(x)P(y|x)f(x,y)$
如果模型能够获取训练数据中的信息，那么就可以假设这两个期望相等，即：
$E_P(f)=E_{\tilde{P}}(f)$
或
$\sum_{x,y}\tilde{P}(x)P(y|x)f(x,y)=\sum_{x,y}\tilde{P}(X=x,Y=y)f(x,y)$
是为模型学习的约束条件，假如有 $n$ 个特征函数 $f_i(x,y),i=1,2,...,n$ ，那么就有 $n$ 个约束条件。

最大熵模型

假设满足所有约束条件的模型集合为：
$C=\{ P\in p|E_{\tilde{P}}(f_i)=E_P(f_i),\ \ i=1,2,...,n \}$
定义在概率分布 $P (Y ∣ X)$ 上的条件熵为：
$H(P)=-\sum_{x,y}\tilde{P}(x)P(y|x)lnP(y|x)$
则模型集合 $C$ 中条件熵 $H (P)$ 最大的模型被称为最大熵模型。

2.4 模型学习

最大熵模型的学习过程就是求解最大熵模型的过程，最大熵模型的学习可以形式化为约束最优化问题，利用拉格朗日乘子法求解。
最大熵模型的学习等价于约束最优化问题：
$max_{P\in C}\ H(P)=-\sum_{x,y}\tilde{P}(x)P(y|x)lnP(y|x) \\ \ \ \ \ s.t.\ \ E_{\tilde{P}}(f_i)=E_P(f_i) \\ \ \ \ \ \sum_{y}P(y|x)=1$
变换一下：
$min_{P\in C}\ -H(P)=-\sum_{x,y}\tilde{P}(x)P(y|x)lnP(y|x) \\ \ \ \ \ s.t.\ \ E_{\tilde{P}}(f_i)=E_P(f_i) \\ \ \ \ \ \sum_{y}P(y|x)=1$
还是像SVM一样，将约束最优化的原始问题转换为无约束优化的对偶问题，通过求解对偶问题求解原始问题。
首先引入拉格朗日乘子 $\omega_0,\omega_1,\omega_2,...,\omega_n$ ，定义拉格朗日函数：
$L(P,\omega)=-H(P)+\omega_0(1-\sum_{y}P(y|x))+\sum_{i=1}^{n}\omega_i(E_{\tilde{P}}(f_i)-E_P(f_i)) \\ =\sum_{x,y}\tilde{P}(x)P(y|x)+\omega_0(1-\sum_{y}P(y|x))+\sum_{i=1}^{n}\omega_i(\sum_{x,y}\tilde{P}(X=x,Y=y)f(x,y)-\sum_{x,y}\tilde{P}(x)P(y|x)f(x,y))$
原始问题是：
$min_{P\in C}max_{\omega}L(P,\omega)$
其对偶问题是：
$max_{\omega}min_{P\in C}L(P,\omega)$

首先求解内侧 $min_{P\in C}L(P,\omega)$ ，将其记为：
$\Psi(\omega)=min_{P\in C}L(P,\omega)=L(P_{omega},\omega)$
其中 $\Psi(\omega)$ 被称为对偶函数，其解为：
$P_{\omega}=argmin_{P\in C}L(P,\omega)=P_{\omega}(y|x)$
求 $L(P,\omega)$ 对 $P (y ∣ x)$ 求导：
$\frac{\partial L(P,\omega)}{\partial P(y|x)}=\sum_{x,y}\tilde{P}(x)(logP(y|x)+1)-\sum_{x,y}(\tilde{P}(x)\sum_{i=1}^{n}\omega_if_i(x,y)) \\ =\sum_{x,y}\tilde{P}(x)\{logP(y|x)+1-\omega_0-\sum_{i=1}^{n}\omega_if_i(x,y)\}$
令偏导数等于0，在 $\tilde{P}(x) \gt 0$ 的情况下，得到：
$P(y|x)=e^{\sum_{i=1}^{n}\omega_i f_i(x,y)+\omega_0 - 1}=\frac{ e^{ \sum_{i=1}^{n}\omega_if_i(x,y)} }{ e^{1-\omega_0} }$
又因为 $\sum_yP(y|x)=1$ ，得到：
$P_{\omega}(y|x)=\frac{1}{Z_{\omega}(x)}e^{\sum_{i=1}^{n}\omega_if_i(x,y)}$
其中：
$Z_{\omega}(x)=\sum_ye^{\sum_{i=1}^{n}\omega_if_i(x,y)}$
$Z_{\omega}(x)$ 被称为规范银子， $f_i(x,y)$ 为特征函数，由 $P_{\omega}(y|x)$ 和 $Z_{\omega}(x)$ 表示的模型 $P_{\omega}=P_{\omega}(y|x)$ 就是最大熵模型，此处 $\omega$ 是最大熵模型中的参数向量。
之后，再求解外侧的极大化问题：
$\omega^{\ast}=arg\ max_{\omega}\Psi(\omega)$
这就是说，可以应用最优化算法求对偶函数 $\Psi(\omega)$ 的极大化，得到 $\omega^{\ast}$ ，用来表示 $P^{\ast}\in C$ 。这里 $P^{\ast}=P_{\omega_{\ast}}=P_{\omega_{\ast}}(y|x)$ 是学习到的最优模型(最大熵模型)。也就是说，最大熵模型的学习归结为对偶函数 $\Psi(\omega)$ 的极大化.

感谢阅读。

如果觉得文章对你有所帮助，欢迎打赏哦～
在这里插入图片描述

yougwypf1991

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
打赏
0
评论
逻辑斯蒂回归和最大熵模型

目录1 逻辑回归模型1.1 逻辑斯蒂分布1.2 二项逻辑蒂斯回归模型逻辑蒂斯回归模型的特点模型学习1.3 多项逻辑蒂斯回归模型2 最大熵模型2.1 最大熵原理2.2 模型解释最大熵模型2.4 模型学习1 逻辑回归模型1.1 逻辑斯蒂分布设XXX是连续随机变量，XXX服从逻辑斯蒂分布是指XXX具有下列分布函数和密度函数：F(x)=P(X≤x)=11+e−x−μγf(x)=F′(x)=e−x−μγγ(1+e−x−μγ)2F(x)=P(X\leq x)=\frac{1}{1+e^{-\frac{x-\m
复制链接

扫一扫