统计学习方法读书笔记（六）-逻辑斯蒂回归与最大熵模型（迭代尺度法（IIS））

最新推荐文章于 2021-03-22 21:35:51 发布

及时行樂_

最新推荐文章于 2021-03-22 21:35:51 发布

阅读量525

点赞数 1

分类专栏： # 李航统计学习方法读书笔记文章标签：统计学习方法

本文链接：https://blog.csdn.net/qq_41485273/article/details/112771034

版权

本文是统计学习方法读书笔记的第六部分，重点介绍了逻辑斯谛回归模型和最大熵模型。逻辑斯谛回归是一种经典的分类方法，其模型中，输出Y=1的对数几率是输入x的线性函数。最大熵模型基于最大熵原理，熵最大的模型被认为是最好的。模型学习的最优化算法中提到了迭代尺度法（IIS），并详细阐述了其工作原理和优化过程。

摘要由CSDN通过智能技术生成

全部笔记的汇总贴：统计学习方法读书笔记汇总贴

逻辑斯谛回归 (logistic regression ）是统计学习中的经典分类方法。最大熵是概率模型学习的一个准则，将其推广到分类问题得到最大熵模型（maximum entropy model) 。逻辑斯谛回归模型与最大熵模型都属于对数线性模型。

一、逻辑斯谛回归模型

设 $X$ 是连续随机变量， $X$ 服从逻辑斯谛分布是指 $X$ 具有下列分布函数和密度函数： $F(x)=P(X\le x)=\frac1{1+e^{-\frac{(x-\mu)}\gamma}}\\f(x)=F'(x)=\frac{e^{-\frac{(x-\mu)}\gamma}}{\gamma(1+e^{-\frac{(x-\mu)}\gamma})^2}$ 其中， $\mu$ 为位置参数， $\gamma>0$ 为形状参数。
在这里插入图片描述
分布函数 $F (x)$ 属于逻辑斯蒂函数，图形是一条 $S$ 形曲线，该曲线以 $(\mu,\frac12)$ 为中心对称，即满足 $F(-x+\mu)-\frac12=-F(x+\mu)+\frac12$ 曲线在中心附近增长速度较快，在两端增长速度较慢。形状参数 $\gamma$ 的值越小，曲线在中心附近增长得越快。

二项逻辑斯谛回归模型（binomial logistic regression model）是一种分类模型，由条件概率分布 $P (Y ∣ X)$ 表示，形式为参数化的逻辑斯蒂分布。条件概率分布为： $P(Y=1|x)=\frac{\exp(w\cdot x)}{1+\exp(w\cdot x)}\\P(Y=0|x)=\frac1{1+\exp(w\cdot x)}$

一个事件的几率（odds）是指该事件发生的概率与该事件不发生的概率的比值。一个事件的几率（odds）是指该事件发生的概率与该事件不发生的概率的比值。逻辑斯蒂回归的对数几率为 $\log \frac{P(Y=1|x)}{1-P(Y=1|x)}=w\cdot x$ 这就是说，在逻辑斯谛回归模型中，输出 $Y = 1$ 的对数几率是输入 $x$ 的线性函数。或者说，输出 $Y = 1$ 的对数几率是由输入 $x$ 的线性函数表示的模型，即逻辑斯谛回归模型。

多项逻辑斯蒂回归模型 $P(Y=k|x)=\frac{\exp(w_k\cdot x)}{1+\sum_{k=1}^{K-1}\exp(w_k\cdot x)}\\P(Y=K|x)=\frac1{1+\sum_{k=1}^{K-1}\exp(w_k\cdot x)}$

二、最大熵模型

最大熵模型（maximum entropy model) 由最大熵原理推导实现，最大熵原理是概率模型学习的一个准则。最大熵原理认为，学习概率模型时，在所有可能的概率模型（分布）中，熵最大的模型是最好的模型。
$H(P)=-\sum_xP(x)\log P(x)\\0\le H(P)\le \log|X|$ 其中， $∣ X ∣$ 是 $X$ 的取值个数，当且仅当 $X$ 是均匀分布时右边等号成立，也就是说，当 $X$ 服从均匀分布时，熵最大。

直观的可以把它看作等可能事件，具体的解析解求法可以用有约束的拉格朗日法。

三、模型学习的最优化算法

常用的方法有改进的迭代尺度法、梯度下降法、牛顿法或拟牛顿法。牛顿法或拟牛顿法一般收敛速度更快，但约束过多。

这里讲解一个书上提到的迭代尺度法（IIS）。可以看看这篇文献，讲的很详细：The Improved Iterative Scaling Algorithm
已知最大熵模型为： $P_w(y|x)=\frac1{Z_w(x)}\exp\Big(\sum_{i=1}^nw_if_i(x,y)\Big)\;\;\;\;\;\;(1)$
其中， $Z_w(x)=\sum_y\exp\Big(\sum_{i=1}^nw_if_i(x,y)\Big)（规范化因子）\;\;\;\;\;(2)$
对数似然函数为 $L_{\hat p}(w)=\sum_{x,y}\hat P(x,y)\sum_{i=1}^nw_if_i(x,y)-\sum_x\hat P(x)\log Z_w(x)\;\;\;\;(3)$
给定联合经验分布函数 $\hat p(x,y)$ ，根据条件模型 $p_w(y|x)$ ，其对数似然函数为 $L_{\hat p}(w)=\sum_{x,y}\hat p(x,y)\log p_w(y|x)\;\;\;\;\;\;(4)$
由(1)、(2)式可得 $L_{\hat p}(w)=\sum_{x,y}\hat P(x,y)\sum_{i=1}^nw_if_i(x,y)-\sum_{x,y}\hat P(x,y)\log Z_w(x)\;\;\;\;\;\;(5)$

最低0.47元/天解锁文章

及时行樂_

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
统计学习方法读书笔记（六）-逻辑斯蒂回归与最大熵模型（迭代尺度法（IIS））

全部笔记的汇总贴：统计学习方法读书笔记汇总贴逻辑斯谛回归 (logistic regression ）是统计学习中的经典分类方法。最大熵是概率模型学习的一个准则，将其推广到分类问题得到最大熵模型（maximum entropy model) 。逻辑斯谛回归模型与最大熵模型都属于对数线性模型。一、逻辑斯谛回归模型设XXX是连续随机变量，XXX服从逻辑斯谛分布是指XXX具有下列分布函数和密度函数：F(x)=P(X≤x)=11+e−(x−μ)γf(x)=F′(x)=e−(x−μ)γγ(1+e−(x−μ)γ)
复制链接

扫一扫

专栏目录