统计学习方法读书笔记(六)-逻辑斯蒂回归与最大熵模型(迭代尺度法(IIS))

本文是统计学习方法读书笔记的第六部分,重点介绍了逻辑斯谛回归模型和最大熵模型。逻辑斯谛回归是一种经典的分类方法,其模型中,输出Y=1的对数几率是输入x的线性函数。最大熵模型基于最大熵原理,熵最大的模型被认为是最好的。模型学习的最优化算法中提到了迭代尺度法(IIS),并详细阐述了其工作原理和优化过程。
摘要由CSDN通过智能技术生成

全部笔记的汇总贴:统计学习方法读书笔记汇总贴

逻辑斯谛回归 (logistic regression )是统计学习中的经典分类方法。最大熵是概率模型学习的一个准则,将其推广到分类问题得到最大熵模型(maximum entropy model) 。逻辑斯谛回归模型与最大熵模型都属于对数线性模型。

一、逻辑斯谛回归模型

X X X是连续随机变量, X X X服从逻辑斯谛分布是指 X X X具有下列分布函数和密度函数: F ( x ) = P ( X ≤ x ) = 1 1 + e − ( x − μ ) γ f ( x ) = F ′ ( x ) = e − ( x − μ ) γ γ ( 1 + e − ( x − μ ) γ ) 2 F(x)=P(X\le x)=\frac1{1+e^{-\frac{(x-\mu)}\gamma}}\\f(x)=F'(x)=\frac{e^{-\frac{(x-\mu)}\gamma}}{\gamma(1+e^{-\frac{(x-\mu)}\gamma})^2} F(x)=P(Xx)=1+eγ(xμ)1f(x)=F(x)=γ(1+eγ(xμ))2eγ(xμ)其中, μ \mu μ为位置参数, γ > 0 \gamma>0 γ>0为形状参数。
在这里插入图片描述
分布函数 F ( x ) F(x) F(x)属于逻辑斯蒂函数,图形是一条 S S S形曲线,该曲线以 ( μ , 1 2 ) (\mu,\frac12) (μ,21)为中心对称,即满足 F ( − x + μ ) − 1 2 = − F ( x + μ ) + 1 2 F(-x+\mu)-\frac12=-F(x+\mu)+\frac12 F(x+μ)21=F(x+μ)+21曲线在中心附近增长速度较快,在两端增长速度较慢。形状参数 γ \gamma γ的值越小,曲线在中心附近增长得越快。

二项逻辑斯谛回归模型(binomial logistic regression model)是一种分类模型,由条件概率分布 P ( Y ∣ X ) P(Y|X) P(YX) 表示,形式为参数化的逻辑斯蒂分布。条件概率分布为: P ( Y = 1 ∣ x ) = exp ⁡ ( w ⋅ x ) 1 + exp ⁡ ( w ⋅ x ) P ( Y = 0 ∣ x ) = 1 1 + exp ⁡ ( w ⋅ x ) P(Y=1|x)=\frac{\exp(w\cdot x)}{1+\exp(w\cdot x)}\\P(Y=0|x)=\frac1{1+\exp(w\cdot x)} P(Y=1x)=1+exp(wx)exp(wx)P(Y=0x)=1+exp(wx)1

一个事件的几率(odds)是指该事件发生的概率与该事件不发生的概率的比值。一个事件的几率(odds)是指该事件发生的概率与该事件不发生的概率的比值。逻辑斯蒂回归的对数几率为 log ⁡ P ( Y = 1 ∣ x ) 1 − P ( Y = 1 ∣ x ) = w ⋅ x \log \frac{P(Y=1|x)}{1-P(Y=1|x)}=w\cdot x log1P(Y=1x)P(Y=1x)=wx这就是说,在逻辑斯谛回归模型中,输出 Y = 1 Y=1 Y=1的对数几率是输入 x x x的线性函数。或者说,输出 Y = 1 Y= 1 Y=1的对数几率是由输入 x x x的线性函数表示的模型,即逻辑斯谛回归模型。

多项逻辑斯蒂回归模型 P ( Y = k ∣ x ) = exp ⁡ ( w k ⋅ x ) 1 + ∑ k = 1 K − 1 exp ⁡ ( w k ⋅ x ) P ( Y = K ∣ x ) = 1 1 + ∑ k = 1 K − 1 exp ⁡ ( w k ⋅ x ) P(Y=k|x)=\frac{\exp(w_k\cdot x)}{1+\sum_{k=1}^{K-1}\exp(w_k\cdot x)}\\P(Y=K|x)=\frac1{1+\sum_{k=1}^{K-1}\exp(w_k\cdot x)} P(Y=kx)=1+k=1K1exp(wkx)exp(wkx)P(Y=Kx)=1+k=1K1exp(wkx)1

二、最大熵模型

最大熵模型(maximum entropy model) 由最大熵原理推导实现,最大熵原理是概率模型学习的一个准则。最大熵原理认为,学习概率模型时,在所有可能的概率模型(分布)中,熵最大的模型是最好的模型。
H ( P ) = − ∑ x P ( x ) log ⁡ P ( x ) 0 ≤ H ( P ) ≤ log ⁡ ∣ X ∣ H(P)=-\sum_xP(x)\log P(x)\\0\le H(P)\le \log|X| H(P)=xP(x)logP(x)0H(P)logX其中, ∣ X ∣ |X| X X X X的取值个数,当且仅当 X X X是均匀分布时右边等号成立,也就是说,当 X X X服从均匀分布时,熵最大。

直观的可以把它看作等可能事件,具体的解析解求法可以用有约束的拉格朗日法。

三、模型学习的最优化算法

常用的方法有改进的迭代尺度法、梯度下降法、牛顿法或拟牛顿法。牛顿法或拟牛顿法一般收敛速度更快,但约束过多。

这里讲解一个书上提到的迭代尺度法(IIS)。可以看看这篇文献,讲的很详细:The Improved Iterative Scaling Algorithm
已知最大熵模型为: P w ( y ∣ x ) = 1 Z w ( x ) exp ⁡ ( ∑ i = 1 n w i f i ( x , y ) )              ( 1 ) P_w(y|x)=\frac1{Z_w(x)}\exp\Big(\sum_{i=1}^nw_if_i(x,y)\Big)\;\;\;\;\;\;(1) Pw(yx)=Zw(x)1exp(i=1nwifi(x,y))(1)
其中, Z w ( x ) = ∑ y exp ⁡ ( ∑ i = 1 n w i f i ( x , y ) ) ( 规 范 化 因 子 )            ( 2 ) Z_w(x)=\sum_y\exp\Big(\sum_{i=1}^nw_if_i(x,y)\Big)(规范化因子)\;\;\;\;\;(2) Zw(x)=yexp(i=1nwifi(x,y))(2)
对数似然函数为 L p ^ ( w ) = ∑ x , y P ^ ( x , y ) ∑ i = 1 n w i f i ( x , y ) − ∑ x P ^ ( x ) log ⁡ Z w ( x )          ( 3 ) L_{\hat p}(w)=\sum_{x,y}\hat P(x,y)\sum_{i=1}^nw_if_i(x,y)-\sum_x\hat P(x)\log Z_w(x)\;\;\;\;(3) Lp^(w)=x,yP^(x,y)i=1nwifi(x,y)xP^(x)logZw(x)(3)
给定联合经验分布函数 p ^ ( x , y ) \hat p(x,y) p^(x,y),根据条件模型 p w ( y ∣ x ) p_w(y|x) pw(yx),其对数似然函数为 L p ^ ( w ) = ∑ x , y p ^ ( x , y ) log ⁡ p w ( y ∣ x )              ( 4 ) L_{\hat p}(w)=\sum_{x,y}\hat p(x,y)\log p_w(y|x)\;\;\;\;\;\;(4) Lp^(w)=x,yp^(x,y)logpw(yx)(4)
由(1)、(2)式可得 L p ^ ( w ) = ∑ x , y P ^ ( x , y ) ∑ i = 1 n w i f i ( x , y ) − ∑ x , y P ^ ( x , y ) log ⁡ Z w ( x )              ( 5 ) L_{\hat p}(w)=\sum_{x,y}\hat P(x,y)\sum_{i=1}^nw_if_i(x,y)-\sum_{x,y}\hat P(x,y)\log Z_w(x)\;\;\;\;\;\;(5) Lp^(w)=x,yP^(x,y)i=1nwi

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值