4.4 逻辑斯蒂回归
这是一篇有关《统计学习基础》,原书名The Elements of Statistical Learning的学习笔记,该书学习难度较高,有很棒的学者将其翻译成中文并放在自己的个人网站上,翻译质量非常高,本博客中有关翻译的内容都是出自该学者的网页,个人解读部分才是自己经过查阅资料和其他学者的学习笔记,结合个人理解总结成的原创内容。
有关ESL更多的学习笔记的markdown文件,可在作者GitHub上查看下载。
原文 | The Elements of Statistical Learning |
---|---|
翻译 | szcf-weiya |
时间 | 2018-08-21 |
注解 | Hytn Chen |
更新 | 2020-02-26 |
翻译原文
逻辑斯蒂回归来自用 x x x 的线性函数来建立 K K K 个类别后验概率模型的需要,同时保证后验概率的和为 1 且每一个都落在 [ 0 , 1 ] [0,1] [0,1].模型有如下形式
log Pr ( G = 1 ∣ X = x ) Pr ( G = K ∣ X = x ) = β 10 + β 1 T x log Pr ( G = 2 ∣ X = x ) Pr ( G = K ∣ X = x ) = β 20 + β 2 T x … log Pr ( G = K − 1 ∣ X = x ) Pr ( G = K ∣ X = x ) = β ( K − 1 ) 0 + β K − 1 T x (4.17) \begin{aligned} \log\dfrac{\Pr(G=1\mid X=x)}{\Pr(G=K\mid X=x)}&=\beta_{10}+\beta_1^Tx\\ \log\dfrac{\Pr(G=2\mid X=x)}{\Pr(G=K\mid X=x)}&=\beta_{20}+\beta_2^Tx\\ &\ldots\\ \log\dfrac{\Pr(G=K-1\mid X=x)}{\Pr(G=K\mid X=x)}&=\beta_{(K-1)0}+\beta_{K-1}^Tx\\ \end{aligned} \tag{4.17} logPr(G=K∣X=x)Pr(G=1∣X=x)logPr(G=K∣X=x)Pr(G=2∣X=x)logPr(G=K∣X=x)Pr(G=K−1∣X=x)=β10+β1Tx=β20+β2Tx…=β(K−1)0+βK−1Tx(4.17)
模型由 K − 1 K-1 K−1 个 log-odds 或 logit 变换来确定(反映了概率之和为 1 的约束).虽然模型采用最后一类来作为 odds-ratios 的分母,但分母的选择其实是任意的,因为在这个选择下估计值是等价的.简单地计算可以得到
Pr ( G = k ∣ X = x ) = exp ( β k 0 + β k T x ) 1 + ∑ ℓ = 1 K − 1 exp ( β ℓ 0 + β ℓ T x ) k = 1 , … , K − 1 Pr ( G = K ∣ X = x ) = 1 1 + ∑ ℓ = 1 K − 1 exp ( β ℓ 0 + β ℓ T x ) (4.18) \begin{aligned} \Pr(G=k\mid X=x)&=\dfrac{\exp(\beta_{k0}+\beta_k^Tx)}{1+\sum\limits_{\ell=1}^{K-1}\exp(\beta_{\ell0}+\beta_\ell^Tx)} \; k=1,\ldots, K-1\\ \Pr(G=K\mid X=x)&=\dfrac{1}{1+\sum\limits_{\ell=1}^{K-1}\exp(\beta_{\ell0}+\beta_\ell^Tx)} \end{aligned} \tag{4.18} Pr(G=k∣X=x)Pr(G=K∣X=x)=1+ℓ=1∑K−1exp(βℓ0+βℓTx)exp(βk0+βkTx)k=1,…,K−1=1+ℓ=1∑K−1exp(βℓ0+βℓTx)1(4.18)
显然它们相加等于 1.为了强调对参数集 θ = { β 10 , β 1 T , … , β ( K − 1 ) 0 , β K − 1 T } \theta=\{ {\beta_{10},\beta_1^T,\ldots,\beta_{(K-1)0},\beta_{K-1}^T}\} θ={ β10,β1T,…,β(K−1)0,βK−1T} 的依赖,我们将概率记为 p k ( x , θ ) p_k(x,\theta) pk(x,θ).
当 K = 2 K=2 K=2 时,模型非常简单,因为只有一个单线性函数.在生物统计应用中应用很广,因为经常会有二进制(两个类别)的响应变量.举个例子,病人获救或死亡,患心脏病和不患心脏病,或者某个条件存在与否.
个人解读
证明从式 ( 4.17 ) (4.17) (4.17)如何推导得到式 ( 4.18 ) (4.18) (4.18)
首先对式 ( 4.17 ) (4.17) (4.17)等式两边取指数,可得
Pr ( G = 1 ∣ X = x ) = Pr ( G = K ∣ X = x ) exp ( β 10 + β 1 T x ) Pr ( G = 2 ∣ X = x ) = Pr ( G = K ∣ X = x ) exp ( β 20 + β 2 T x ) ⋮ Pr ( G = K − 1 ∣ X = x ) = Pr ( G = K ∣ X = x ) exp ( β ( K − 1 ) 0 + β ( K − 1 ) T x ) \begin{aligned} \operatorname{Pr}(G=1 | X=x) &=\operatorname{Pr}(G=K | X=x) \exp \left(\beta_{10}+\beta_{1}^{T} x\right) \\ \operatorname{Pr}(G=2 | X=x) &=\operatorname{Pr}(G=K | X=x) \exp \left(\beta_{20}+\beta_{2}^{T} x\right) \\ & \vdots \\ \operatorname{Pr}(G=K-1 | X=x) &=\operatorname{Pr}(G=K | X=x) \exp \left(\beta_{(K-1) 0}+\beta_{(K-1)}^{T} x\right) \end{aligned} Pr(G=1∣X=x)Pr(G=2∣X=x)Pr(G=K−1∣X=x)=Pr(G=K∣X=x)exp(β10+β1Tx)=Pr(G=K∣X=x)exp(β20+β2Tx)⋮=Pr(G=K∣X=x)exp(β(K−1)0+β(K−1)Tx)
将上面所有式子都累加,并且默认当x确定的情况下K个类概率之和为1(类与类互斥),可得
Pr ( G = K ∣ X = x ) ( 1 + ∑ l = 1 K − 1 exp ( β l 0 + β l T x ) ) = 1 \operatorname{Pr}(G=K | X=x)\left(1+\sum_{l=1}^{K-1} \exp \left(\beta_{l 0}+\beta_{l}^{T} x\right)\right)=1 Pr(G=K∣X=x)(1+l=1∑K−1exp(βl0+βlTx))=1
由此解得第K类的条件概率,将该式逐个代入上式,即可依次解得每个类的概率
Pr ( G = k ∣ X = x ) = exp ( β k 0 + β k T x ) 1 + ∑ ℓ = 1 K − 1 exp ( β ℓ 0 + β ℓ T x ) \Pr(G=k\mid X=x)=\dfrac{\exp(\beta_{k0}+\beta_k^Tx)}{1+\sum\limits_{\ell=1}^{K-1}\exp(\beta_{\ell0}+\beta_\ell^Tx)} Pr(G=k∣X=x)=1+ℓ=1∑K−1exp(βℓ0+βℓTx)exp(βk0+βkTx)
拟合逻辑斯蒂回归模型
逻辑斯蒂回归经常通过极大似然法求解,采用在给定 X X X 时 G G G 的条件概率.因为 Pr ( G ∣ X ) \Pr(G\mid X) Pr(G∣X) 完全明确了条件分布,选择 多项式分布 (multinomial) 是合适的&