统计学习方法-逻辑斯蒂回归与最大熵模型-读书笔记

最新推荐文章于 2022-09-27 11:31:03 发布

qq_38829768

最新推荐文章于 2022-09-27 11:31:03 发布

阅读量320

点赞数

分类专栏：学习笔记文章标签：统计学习方法逻辑回归最大熵模型机器学习

本文链接：https://blog.csdn.net/qq_38829768/article/details/103023119

版权

学习笔记专栏收录该内容

17 篇文章 0 订阅

订阅专栏

统计学习方法-逻辑斯蒂回归与最大熵模型

1、前言

逻辑斯蒂回归（logistic regression）是统计学习中经典的分类方法。最大熵是概率模型学习的准则，将其推广到分类问题得到最大熵模型（maximum entropy model）。逻辑斯蒂回归模型与最大熵模型都属于对数线性模型。

2、逻辑斯蒂回归模型

2.1 逻辑斯蒂分布

设X是连续随机变量，X服从逻辑斯蒂分布是指X具有下列分布函数和密度函数：
$F(X)=P(X\leq x)=\frac{1}{1+e^{\frac{-(x-\mu)}{\gamma}}}$
$f(x)=F'(x)=\frac{e^{\frac{-(x-\mu)}{\gamma}}}{\gamma(1+e^{\frac{-(x-\mu)}{\gamma}})^2}$
分布函数f(x)以点( $\mu$ ,1/2)为中心对称，Y值越小，曲线在中心附近增长地越快。

2.2 二项逻辑斯蒂回归模型

其模型是如下的条件概率分布：
$P(Y=1|x)=\frac{exp(w*x)}{1+exp(w*x)}$
$P(Y=0|x)=\frac{1)}{1+exp(w*x)}$
计算出两个条件概率值的大小，将x分到概率值较大的那一类。
如果事件发生的概率为p，则该事件发生的**几率(odds)**是指该事件发生的概率与该事件不发生的概率的比值。
该事件的对数几率（log odds）或logit函数是
$logit(p)=\log{\frac{p}{1-p}}$
对逻辑斯蒂回归而言
$\log{\frac{P(Y=1|x)}{1-P(Y=1|x)}}=w*x$
也就是说，输出Y=1的对数几率是输入x的线性函数，线性函数值越接近正无穷，概率值越接近1，反之越接近0.

2.3 模型参数估计

可以使用极大似然估计法估计模型参数w。

2.4 多项逻辑斯蒂回归

设离散型随机变量Y的取值集合是{1，2，K}，那么多项逻辑斯蒂回归模型是
$P(Y=k|x)=\frac{exp(w_k*x)}{1+\sum_{k=1}^{K-1}{exp(w_k*x)}}$

3、最大熵模型

3.1 最大熵原理

学习概率模型时，在所有可能的概率模型中，熵最大的模型是最好的模型，直观的，最大熵原理也可以表述为在满足约束条件的模型集合中选取熵最大的模型。

3.2 最大熵模型

假设满足所有约束条件的模型集合为
$C\equiv {P \in p|E_p(f_i)=E_{\check{p}}(f_i)}$
定义在条件概率分布P(Y|X)上的条件熵为
$H(P)=-\sum_{x,y}{\check{P}(x)P(y|x)\log{P(y|x)}}$
则模型集合C中条件熵H§最大的模型称为最大熵模型。
实际求解中，引进拉格朗日乘子，最终得出最大熵模型：
$P_w(y|x)=\frac{exp(\sum_{i=1}^n{w_if_i(x,y)})}{Z_w(x)}$
$Z_w(x)=\sum_{y}{exp(\sum_{i=1}^n{w_if_i(x,y)})}$
$Z_w(x)$ 称为规范化因子； $f_i(x,y)$ 是特征函数； $w_i$ 是特征权值， $P_w$ 就是最大熵模型。
最大熵模型的学习就是求解最大熵模型的过程，等价于约束最优化问题。
对偶函数等价于对数似然函数，对偶函数极大化等价于最大熵模型的极大似然估计。
最大熵模型与逻辑斯蒂回归模型有类似的形式，他们又称为对数线性模型，模型学习就是在给定训练数据条件下对模型进行极大似然估计或正则化的极大似然估计。

4、算法

似然函数是光滑的凸函数，因此多种最优化方法都适用。

4.1 改进的迭代尺度法IIS

假设当前的参数向量是w，如果能找到一种方法 $w\rightarrow w+\delta$ 使对数似然函数变大，就可以重复使用这一方法，直到找到最大值。

4.2 拟牛顿法

4.3 梯度下降法

qq_38829768

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
统计学习方法-逻辑斯蒂回归与最大熵模型-读书笔记

统计学习方法-逻辑斯蒂回归与最大熵模型1、前言2、逻辑斯蒂回归模型2.1 逻辑斯蒂分布2.2 二项逻辑斯蒂回归模型2.3 模型参数估计2.4 多项逻辑斯蒂回归3、最大熵模型3.1 最大熵原理3.2 最大熵模型4、算法4.1 改进的迭代尺度法IIS4.2 拟牛顿法4.3 梯度下降法1、前言逻辑斯蒂回归（logistic regression）是统计学习中经典的分类方法。最大熵是概率模型学习的准则...
复制链接

扫一扫

专栏目录