机器学习理论《统计学习方法》学习笔记：第六章逻辑斯谛回归与最大熵模型

最新推荐文章于 2024-02-04 14:32:24 发布

紫芝

最新推荐文章于 2024-02-04 14:32:24 发布

阅读量299

点赞数

分类专栏：统计学习方法文章标签：机器学习人工智能

本文链接：https://blog.csdn.net/qq_40507857/article/details/108194983

版权

统计学习方法专栏收录该内容

10 篇文章 8 订阅

订阅专栏

机器学习理论《统计学习方法》学习笔记：第六章逻辑斯谛回归与最大熵模型

6 逻辑斯谛回归与最大熵模型

6 逻辑斯谛回归与最大熵模型

逻辑斯谛回归（logistic regression）是统计学习中的经典分类方法。最大熵是概率模型学习的一个准则，将其推广到分类问题得到最大熵模型（maximum entropy model）。逻辑斯谛回归模型与最大熵模型都属于对数线性模型。

6.1 逻辑斯谛回归模型

6.1.1 逻辑斯谛分布

逻辑斯谛分布：设 $X$ 是连续随机变量， $X$ 服从逻辑斯谛分布是指 $X$ 具有下列分布函数和密度函数：
$F(x)=p(X\le x)={{1}\over{1+e^{-(x-\mu)/\gamma}}}$
$f(x)=F^{'}(x)={{e^{-(x-\mu)/\gamma}}\over{\gamma({1+e^{-(x-\mu)/\gamma}}})^2}$
$\mu$ 为位置参数， $\gamma \gt 0$ 为形状参数。
逻辑斯谛分布的密度函数 $f (x)$ 和分布函数 $F (x)$ 的图像如下。
在这里插入图片描述
分布函数属于逻辑斯谛函数，其图形是一条S形曲线，以点 $(\mu,{1\over 2})$ 为中心对称，即满足
$F(-x+\mu)-{1\over2}=-F(x+\mu)+{1\over2}$
曲线在中心附近增长速度快，在两端增长速度慢。形状参数 $\gamma$ 的值越小，曲线在中心附近增长得越快。

6.1.2 二项逻辑斯蒂回归模型

二项逻辑斯谛回归模型是一种分类模型，由条件概率分布 $P (Y ∣ X)$ 表示，形式为参数化得逻辑斯谛分布。这里，随机变量 $X$ 取值为实数，随机变量 $Y$ 取值为1或0.通过监督学习的方法来估计模型参数。

逻辑斯谛回归模型
$二项逻辑斯谛回归模型是如下的条件概率分布：$
$P(Y=1|x)={{exp(w\cdot x+b)}\over{1+exp(w\cdot x+b)}}$
$P(Y=0|x)={{1}\over{1+exp(w\cdot x+b)}}$
$x\in R^n是输入，Y\in\{0,1\}是输出，w\in R^n和b\in R是参数，w称为权值向量，b称为偏置，w\cdot x是w和x的内积。$

$有时为了方便，将权值向量和输入向量加以扩充，仍记作w和x，即w=(w^{(1)},w^{(2)},\cdots,w^{(n)},b)^T,x=(x^{(1)},x^{(2)},\cdots,x^{(n)},1)^T.此时，逻辑斯谛回归模型如下：$
$P(Y=1|x)={{exp(w\cdot x)}\over{1+exp(w\cdot x)}}$
$P(Y=0|x)={{1}\over{1+exp(w\cdot x)}}$

现在考察逻辑斯谛回归模型的特点。一个事件的几率（odds）是指该事件发生的概率与该事件不发生的概率的比值。如果事件发生的概率是p，那么该事件的几率是 ${p\over{1-p}}$ ,该事件的对数几率（log odds）或logit函数是 $logit(p)=log{p\over{1-p}}$ ,对逻辑斯谛回归而言: $log{{P(Y=1|x)}\over{1-P(Y=1|x)}}=w\cdot x$

在逻辑斯谛回归模型中，输出Y=1的对数几率是输入x的线性函数。或者说，输出Y=1的对数几率是由输入x的线性函数表示的模型，即逻辑斯谛回归模型。

换一个角度看，考虑对输入x进行分类的线性函数 $w\cdot x$ ，其值域为实数域， $x\in R^{n+1},w\in R^{n+1}$ .通过逻辑斯谛回归模型的定义式，可以将线性函数 $w\cdot x$ 转换为概率： $P(Y=1|x)={{exp(w\cdot x)}\over{1+exp(w\cdot x)}}$ 这时，线性函数的值越接近正无穷，概率值就越接近1；线性函数的值越接近负无穷，概率值就越接近0.

6.1.3 模型参数估计

逻辑斯谛回归模型学习时，对于给定的训练数据集
$T=\{(x_1,y_1),(x_2,y_2),\cdots,(x_n,y_n)\}$
$其中，x_i\in R^n,y_i\in\{0,1\}$
可以应用极大似然估计法估计模型参数，从而得到逻辑斯蒂回归模型。

设: $P(Y=1|x)=\pi(x),P(Y=0|x)=1-\pi(x)$
似然函数为： $\prod_{i=1}^N[\pi(x_i)]^{y_i}[1-\pi(x_i)]^{1-y_i}$
对数似然函数为：
$L(w)=\sum_{i=1}^N[y_ilog\pi(x_i)+(1-y_i)log(1-\pi(x_i)]$
$=\sum_{i=1}^N[y_ilog{{\pi(x_i)}\over{1-\pi(x_i)}}+log(1-\pi(x_i))]$
$=\sum_{i=1}^N[y_i(w\cdot x_i)-log(1+exp(w\cdot x_i))]$
$对 L (w) 求极大值，得到 w 的估计值。$

6.1.4 多项逻辑斯谛回归

二项逻辑斯谛回归模型是二项分类模型，用于二类分类。可以将其推广为多项逻辑斯谛回归模型，用于多分类。假设离散型随机变量Y的取值集合是{1,2,…,K}，那么多项逻辑斯谛回归模型是：
$P(Y=k|x)={{exp(w_k\cdot x)}\over{1+\sum_{k=1}^{K-1}exp(w_k\cdot x)}},k=1,2,\cdots,K-1$
$P(Y=K|x)={{1}\over{1+\sum_{k=1}^{K-1}exp(w_k\cdot x)}}$
$这里，x\in R^{n+1},w_k\in R^{n+1}$

6.2 最大熵模型

6.2.1 最大熵原理

最大熵原理是概率模型学习的一个准则。最大熵原理认为，学习概率模型时，在所有可能的概率模型（分布）中，熵最大的模型是最好的模型。通常用约束条件来确定概率模型的集合，所以，最大熵原理也可以表述为在满足约束条件的模型集合中，选取熵最大的模型。

假设离散随机变量 $X$ 的概率分布是 $P (X)$ ，则其熵是
$H(P)=-\sum_xP(x)logP(x)$
熵满足下列不等式：
$0\le H(P)\le log|X|$
式子中， $∣ X ∣$ 是 $X$ 的取值个数，当且仅当 $X$ 的分布是均匀分布时，右边的等号成立。这就是说，当 $X$ 服从均匀分布时，熵最大。

直观地，最大熵原理认为要选择的概率模型首先必须满足已有的事实，即约束条件。在没有更多信息的情况下，那些不确定的部分都是等可能的。最大熵原理通过熵的最大化来表示可能性。等可能不容易操作，而熵则是一个可优化的数值指标。

概率模型集合图提供了用最大熵原理进行概率模型选择的几何解释。
在这里插入图片描述
概率模型集合 $\rho$ 可由欧氏空间中的单纯形（simplex）表示，如左图的三角形。一个点代表一个模型，整个单纯形代表整个集合。右图上的一条直线对应于一个约束条件，直线的交集对应于满足所有约束条件的模型集合。一般地，这样的模型仍有无穷多个，学习的目的是在可能的模型集合中选择最优模型，而最大熵原理给出最优模型选择的一个准则。

6.2.2 最大熵模型的定义

最大熵原理是统计学习的一般原理，将它应用到分类得到最大熵模型。
假设分类模型是一个条件概率分布 $P (Y ∣ X)$ .这个模型表示的是对于给定的输入X，以条件概率 $P (Y ∣ X)$ 输出Y。
给一个训练集 $T=\{(x_1,y_1),(x_1,y_1),\cdots,(x_1,y_1)\}$ 学习的目标是最大熵原理选择最好的分类模型。
用特征函数 $f (x, y)$ 描述输入x和输出y之间的某一个事实。其定义是
$\begin{cases} 1,& \text{x与y满足某一事实}\\ 0,&\text{否则} \end{cases}$
它是一个二值函数，当x和y满足这个事实时取值为1，否则取值为0.

最大熵模型
$假设满足所有约束条件的模型为$
$C\equiv\{P\in\Rho|E_{\tilde{p}}(f_i),i=1,2,\cdots,n\}$
$定义在条件概率分布 P (Y ∣ X) 上的条件熵为$
$H(P)=-\sum_{x,y}\tilde{P}(x)P(y|x)logP(y|x)$
$则模型集合 C 中条件熵 H (P) 最大的模型称为最大熵模型，式子中的对数为自然对数。$

6.2.3 最大熵模型的学习

最大熵模型的学习过程就是求解最大熵模型的过程。最大熵模型的学习可以形式化为约束最优化问题。

对于给定的训练数据集 $T=\{(x_1,y_1),(x_2,y_2),\cdots,(x_N,y_N)\}$
以及特征函数 $f_i(x,y),i=1,2,\cdots,n$ ，最大熵模型的学习等价于约束最优化问题：
$max_{P\in C}H(P)=-\sum_{x,y}{\tilde{P}}(x)P(y|x)logP(y|x)$
$s.t.\space\space\space E_P(f_i)= E_{\tilde{P}}(f_i),i=1,2,\cdots,n$
$\sum_yP(y|x)=1$

6.2.4 极大似然估计

下面证明对偶函数的极大化等价于最大熵模型的极大似然估计。
最大熵模型与逻辑斯谛回归模型有类似的形式，它们又称为对数线性模型。模型学习就是在给定的训练数据下，对模型进行极大似然估计或正则化的极大似然估计。

6.3 模型学习的最优化算法

逻辑斯谛回归模型、最大熵模型学习归结为以似然函数为目标函数的最优化问题，通常通过迭代算法求解。从最优化的观点看，这时的目标函数具有很好的性质。它是光滑的凸函数，因此多种最优化的方法都适用，保证能找到全局最优解。
常用的方法有改进的迭代尺度法、梯度下降法、牛顿法或拟牛顿法。牛顿法或拟牛顿法一般收敛速度更快。

6.3.1 改进的迭代尺度法

改进的迭代尺度法（improved iterative scaling，IIS）是一种最大熵模型学习的最优化算法。
已知最大熵模型为 $P_w(y|x)={{1}\over{Z_w(x)}}(\sum_{i=1}^nw_if_i(x,y))$
其中， $Z_w(x)=\sum_yexp(\sum_{i=1}^nw_if_i(x,y))$
对数似然函数为 $L(w)=\sum_{x,y}\tilde{P}(x,y)\sum_{i=1}^nw_if_i(x,y)-\sum_x\tilde{P}(x)logZ_w(x)$
目标是通过极大似然估计学习模型参数，即求对数似然函数的极大值 $\hat w$

IIS的想法是：假设最大熵模型当前的参数向量是 $w=(w_1,w_2,\cdots,w_n)^T$ ，希望找到一个新的参数向量 $w+\delta=(w_1+\delta_1,w_2+\delta_2,\cdots,w_n+\delta_n)^T$ ，使得模型的对数似然函数值增大。如果能有这样一种参数向量更新的方法 $\tau:w\rightarrow w+\delta$ ，那么就可以重复使用这一方法，直至找到对数似然函数的最大值。