六、逻辑回归与最大熵模型

最新推荐文章于 2022-06-12 10:54:43 发布

lemonaha

最新推荐文章于 2022-06-12 10:54:43 发布

阅读量686

点赞数

分类专栏：机器学习

本文链接：https://blog.csdn.net/lemonaha/article/details/69966234

版权

机器学习专栏收录该内容

12 篇文章 0 订阅

订阅专栏

- 六逻辑回归与最大熵模型

六、逻辑回归与最大熵模型

逻辑回归（logistic regression）是统计学习中的经典分类方法。最大熵是概率模型学习的一个准则，将其推广到分类问题得到最大熵模型（maximum entropy model）。逻辑回归与最大熵模型都属于对数线性模型。

6.1 逻辑回归模型

6.1.1 逻辑分布（logistics regression）

定义：设 $X$ 是连续随机变量， $X$ 服从逻辑分布是指 $X$ 具有下列分布函数和密度函数：

F (x) = P (X \leq x) = 1 1 + e - ( x - μ ) / γ

$F(x)=P(X\le x)=\frac{1}{1+e^{-(x-\mu)/\gamma}}$

f (x) = F' (x) = e - ( x - μ ) / γ γ ( 1 + e - ( x - μ ) / γ ) 2

$f(x)=F'(x)=\frac{e^{-(x-\mu)/\gamma}}{\gamma (1+e^{-(x-\mu)/\gamma})^2}$
分布函数属于逻辑函数，其图形是一条S型曲线（sigmoid curve）。该曲线以点

(μ,12) $(\mu,\frac{1}{2})$ 为中心对称。

6.1.2二项逻辑回归模型

二项逻辑回归模型（binomial logistics regression model）是一种分类模型，由条件概率分布 $P(Y|X)$ 表示，形式为参数化的逻辑分布。其中，随机变量 $X$ 取值为实数，随机变量 $Y$ 取值为1或0。我们通过监督学习的方法来估计模型参数。
定义：二项逻辑回归模型是如下的条件概率分布：

P (Y = 1 | X) = e x p ( ω \cdot x + b ) 1 + e x p ( ω \cdot x + b )

$P(Y=1|X)=\frac{exp(\omega \cdot x+b)}{1+exp(\omega \cdot x+b)}$

P (Y = 0 | X) = 1 1 + e x p ( ω \cdot x + b )

$P(Y=0|X)=\frac{1}{1+exp(\omega \cdot x+b)}$
其中，

ω $\omega$ 称为权值向量，b称为偏置，

ω⋅x $\omega \cdot x$ 为内积。

逻辑分布的密度函数f(x)和分布函数F(x)的图形如图所示。分布函数属于逻辑函数，其图形是一条S形曲线(sigmoid curve)。该曲线以点(u, 1/2)为中心对称，即满足
Alt text
- 曲线在中心附近增长速度较快，在两端增长速度较慢形状参数Y的值越小，曲线在中心附近增长得越快.
逻辑回归比较两个条件概率值的大小，将实例 $x$ 分到概率值大的那一类。

6.1.3模型参数估计

逻辑回归模型学习时，对于给定的训练数据集 $T={(x_1,y_1),(x_2,y_2),\cdots,(x_N,y_N),}$ ,可以应用极大似然估计法估计模型参数，从而得到逻辑回归模型。
设

P (Y = 1 | X) = π (x), 则 P (Y = 0 | X) = 1 - π (x)

$P(Y=1|X)=\pi (x) , 则P(Y=0|X)=1-\pi(x)$
似然函数为 $\prod i = 1 N [π (x i)] y i [1 - π (x i)] 1 - y i$ $\prod_{i=1}^N[\pi(x_i)]^{y_i}[1-\pi(x_i)]^{1-y_i}$
设对数似然函数为 $L(\omega)$ ,对 $L(\omega)$ 求极大值，得到 $\omega$ 的估计值。
这样，问题就标称了以对数似然函数为目标函数的最优化问题。逻辑回归学习中通常采用的方法是梯度下降法以及拟牛顿法。

6.1.4多项逻辑回归

上面介绍的逻辑回归模型是二项分类模型，用于二类分类，可以将其推广为多项逻辑分类模型（multi-nominal logistics regression model），用于多类分类。

6.2最大熵模型

最大熵模型（maximum entropy model）是由最大熵原理推导实现。

6.2.1最大熵原理

最大熵原理认为，学习概率模型时，在所有的可能的概率模型（分布）中，熵最大的模型是最好的模型。通常用约束条件来确定概率模型的集合。所以，最大熵原理也可以表述为在满足约束条件的模型集合中选取熵最大的模型。

在信息论与概率统计中，熵（entropy）是表示随机变量不确定性的度量。设 $X$ 是一个取有限个值的离散随机变量，其概率分布为
$P (X = x i) = p i, i = 1, 2, \dots, n$ $P(X=x_i)=p_i,i=1,2,\cdots,n$
则随机变量 $X$ 的熵定义为 $H (X) = - \sum i = 1 n p i log p i$ $H(X)=-\sum_{i=1}^n p_i \log p_i$

直观地，最大熵原理认为要选择的概率模型首先必须满足已有的事实，即约束条件。在没有更多信息的情况下，那些不确定的部分都是“等可能的”。

6.2.2最大熵模型的定义

假设满足所有约束条件的模型集合为
定义在条件概率分布P(Y|X)上的条件熵为
则模型集合C中条件熵H(P)最大的模型称为最大熵模型。

6.2.3最大熵模型的学习

最大熵模型的学习过程就是求解最大熵模型的过程，可以形式化为约束最优化问题。

转换成

6.2.4极大似然估计

最大熵模型学习中的对偶函数极大化等价于最大熵模型的极大似然估计，最大熵模型的学习问题就转换为具体求解对数似然函数极大化或对偶函数极大化的问题。
对数似然函数为：

目标函数为：

最大熵模型的一般形式为：

6.3模型学习的最优化算法

逻辑回归，最大熵模型学习归结为以似然函数为目标函数的最优化问题，通常通过迭代算法求解。
从最优化的观点看，这时的目标函数具有很好的性质。它是光滑的凸函数，因此多种最优化的方法都适用，保证能找到全局最优解。常用的方法有改进的迭代尺度法，梯度下降法，牛顿法或拟牛顿法。牛顿法或拟牛顿法一般收敛速度较快。

关于梯度下降，拟牛顿法等相关公式推导，参考coursera上Andrew NG 的课程，这是相关博客链接：http://blog.csdn.net/abcjennifer/article/details/7716281