统计学习方法——第6章 logistics回归与最大熵模型

最新推荐文章于 2024-01-28 23:42:14 发布

qq_37172182

最新推荐文章于 2024-01-28 23:42:14 发布

阅读量412

点赞数

分类专栏：机器学习文章标签：统计学习方法 logistics回归

本文链接：https://blog.csdn.net/qq_37172182/article/details/99733266

版权

机器学习专栏收录该内容

21 篇文章 1 订阅

订阅专栏

介绍（Introduction）：

logistics回归是统计学习方法中的经典分类方法。最大熵是概率模型学习的一个准则。将其推广到分类问题得到最大熵模型（Maxmium Entorpy Model）。logistics回归和最大熵模型都是线性对数模型。

6.1 logistics回归模型：

logistics 分布（logistics distribution）：

分布函数： $F(x) = P(X\leq x) = \dfrac{1}{1+\exp(-(x-u)/\lambda ))}$

概率密度： $f(x) = F'(x)=\dfrac{\exp(-(x-u)/\lambda )}{\gamma(1+\exp(-(x-u)/\lambda)) )^2}$

二项logistics回归：

$P(Y=1|x)=\dfrac{e^{(w.x)}}{1+e^{w.x}}$ , $P(Y=0|x)=\dfrac{1}{1+e^{w.x}}$ , 其中 $w = (w^{(1)}, w^{(2)}, ...,w^{(n)}, b)^T$ , $x = (x^{(1)}, x^{(2)}, ...,x^{(n)}, 1)^T$

几率（odds）：事件发生的概率和不发生的概率的比值，对数几率为： $\log\dfrac{p}{1-p}=\log(e^{w.x})=w.x$ ,即输出 Y=1 的对数几率是的线性函数。

极大似然法参数估计：

设: $P(Y=1|x)=\pi(x)$ , 则似然函数为： $\prod_{i=1}^{N}[\pi(x_i)]^{y_i}[1-\pi(x_i)]^{1-y_i}$ ，其中 $y_i \in \{0, 1 \}$

对数似然函数： $\small L(w)=\sum_i^Ny_i\log(\pi(x_i))+(1-y_i)\log(1-\pi(x_i))=\sum_i^Ny_i(w.x_i)\log(1+e^{(w.x_i)})$

最优化对数似然函数 $\small L(w)$ 的方法有梯度下降法和拟牛顿法。

6.2 最大熵模型：

最大熵模型：在所有可能的概率模型中，熵最大的模型是最好的模型。通常用约束条件来确定概率模型的集合，所以，最大熵原理可以表述为在满足约束条件下选择熵最大的模型。可以证明，当且仅当变量 $\small X$ 服从均匀分布时，熵最大。

联合概率分布 $\small P(X,Y)$ 和边缘分布 $\small P(X)$ 的经验分布分别为 $\small \tilde{P}(X,Y)$ 和 $\small \tilde{P}(X)$ ， $\small \tilde{P}(X,Y)=\dfrac{v(X=x,Y=y)}{N}$ $\small \tilde{P}(X)=\dfrac{v(X=x)}{N}$ ,

特征函数 $\small f(x,y)$ 描述 $\small x$ 与 $\small y$ 的某一事实。记为： $\small f(x)=\left\{\begin{matrix} &1 \ \ \ x,y\ exist\ fact& \\ &0 \ \ \ otherwise\ \ \ \ \ \ & \end{matrix}\right.$

关于经验分布 $\small \tilde{P}(X,Y)$ 的期望记为： $\small E_{\tilde{P}}(f)=\sum_i^N\tilde{P}(x,y)f(x,y)$ ,

关于经验分布 $\small \tilde{P}(X)$ 的期望记为： $\small E_{P}(f)=\sum_i^N\tilde{P}(x)P(y|x)f(x,y)$

条件约束满足: $\small E_{\tilde{P}}(f)=E_{P}(f)$

条件熵最大的熵模型： $\small H(P)=-\sum_i^N\tilde{P}(x)P(y|x)\log P(y|x)$ s.t $\small E_{\tilde{P}}(f)=E_{P}(f)$ ， $\small \sum_yP(y|x)=1$ 的最优化问题：

$max_{P\in C}H(P)=-\sum_{(x,y)}\tilde{P}(x)P(y|x)\log P(y|x)=min_{P \in C}\sum_{(x,y)}\tilde{P}(x)P(y|x)\log P(y|x)$

条件熵最大的最大熵模型求解方法：拉格朗乘数法:

$L(P,w)=-H(P)+w_0(1-\sum_yP(y|x))+\sum_i^Nw_i(E_{\tilde{P}}(f_i)-E_P(f_i))$

最优化原始问题 $\min_P\max_wL(P,w)$ 的对偶问题 $\max_w\min_PL(P,w)$ 。对求导，令倒数为0，结合约束条件2，求得：

$P(y|x)=\exp{\sum_i(w_if_i(x,y))+w_0-1)}=\dfrac{\exp\sum_i(w_if_i(x,y)}{\exp{(1-w_0)}}$ , $\small \sum_yP(y|x)=1$ , 得：

$P_w(y|x)=\dfrac{\exp\sum_i(w_if_i(x,y)}{Z_w(x)}$ ,其中， $Z_w(x)=\sum_y\exp{(\sum_iw_if_i(x,y))}$ 称为泛化因子。

结论：对偶函数的极大化等价于最大熵模型的极大似然估计。

6.3 模型优化算法：

改进的迭代尺度法（imporved iterative scaling, IIS）：

输入：特征函数 f_1,f_2,...,f_n ，经验分布 $\small \tilde{P}(X,Y)$ 和模型 P_w(y|x)

输出：最优参数值 w_i^* 和最优模型 P_w.

(1) 对所有 $i \in \{1, 2, ..., n \}$ ,取初值 w_i=0

(2) 对每一个 $i \in \{1, 2, ..., n \}$ ，a: 令 $\delta_i$ 是方程 $\small \sum_{x,y}\tilde{P}(x)P(y|x)f_i(x,y)\exp(\delta_i\sum_i^nf_i(x,y)=E_{\tilde{P}}(f)$ 的解，b:更新 $\small w_i\leftarrow w_i+\delta_i$

(3) 如果不是所有 $\small w_i$ 都收敛，重复（2）。

拟牛顿法（BFGS）：

输入：特征函数 f_1,f_2,...,f_n ，经验分布 $\small \tilde{P}(X,Y)$ ，目标函数 $\small f(w)$ ，梯度 $\small g(w)=\triangledown f(w)$ ，精度 $\small \epsilon$

输出：最优参数值 w_i^* 和最优模型 P_w.

6.4 logistics回归与朴素贝叶斯：

相同点：

都是对数特征的线性函数，都属于概率模型；

不同点：

A：logistics回归是判别模型，最大化判别函数 $\small P(y|x)$ ,不需要知道 $\small P(x|y)$ 和 $\small P(y)$

朴素贝叶斯是生成模型，首先计算先验 $\small P(y)$ 和似然函数 $\small P(x|y)$ ，最后生成概率 $\small P(y|x)$

B：在独立同分布假设条件下，朴素贝叶斯和logistics均具有较好的表达能力，当数据不满足 $\small i.i.d$ 条件时，logistics通过调整参数仍能得到优化解

C：朴素贝叶斯数据需求量为 $\small O(\log N)$ ，logistics回归数据需求量为 $\small O(N)$

D：朴素贝叶斯不需要调参，优化更简单。

qq_37172182

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
统计学习方法——第6章 logistics回归与最大熵模型

介绍（Introduction）： logistics回归是统计学习方法中的经典分类方法。最大熵是概率模型学习的一个准则。将其推广到分类问题得到最大熵模型（Maxmium Entorpy Model）。logistics回归和最大熵模型都是线性对数模型。6.1 logistics回归模型：logistics 分布（logistics distribution）： ...
复制链接

扫一扫

专栏目录