Logistic Regression 是一种 Generalized Linear Model(GLM),也即广义线性模型。
1. LR 的基本假设
逻辑回归其实是假设事件发生比(odd)的对数为线性模型。
LR 模型假设观测值 y y y 成立的对数几率(log-odds)能够表示为 K K K 重输入变量的线性组合:
log P ( x ) 1 − P ( x ) = ∑ j = 0 K b j x j \log\frac{P(\mathbf x)}{1-P(\mathbf x)}=\sum_{j=0}^Kb_jx_j log1−P(x)P(x)=j=0∑Kbjxj
其中 x 0 = 1 x_0=1 x0=1(特征向量进行增广),待求的模型共 K + 1 K+1 K+1 个参数。等式左边被称为 logit of P(这也是 logistic regression 得名的原因)。
等式两边同时取对数:
P ( x ) 1 − P ( x ) = exp ( ∑ j = 0 K b j x j ) = ∏ j = 0 K exp ( b j x j ) \frac{P(\mathbf x)}{1-P(\mathbf x)}=\exp\left(\sum_{j=0}^Kb_jx_j\right)=\prod_{j=0}^K\exp\left(b_jx_j\right) 1−P(x)P(x)=exp(j=0∑Kbjxj)=j=0∏Kexp(bjxj)
这样的等式形式清晰地说明了,logistic 模型与输入之间是乘性关系,而不是线性模型的加性关系,这种加性关系也给了我们一种解释系数的方式。比如 exp ( b j ) \exp\left(b_j\right) exp(bj) 就表明了,随着 x j x_j xj 增加一个单位( x j ⇒ x j + 1 x_j⇒ x_j+1 xj⇒xj+1),模型的输出为真的几率增加的大小(也即 exp ( b j ) \exp\left(b_j\right) exp(bj))。考虑 b j = 0.693 b_j=0.693 bj=0.693,则 exp ( b j ) = 2 \exp\left(b_j\right)=2 exp(bj)=2,如果此时 x j x_j xj 表达的是数值变量,比如年龄, x j x_j xj 变量没增加 1 岁,模型输出为真的几率就变为之前的 2 倍。
如果记 z = ∑ j = 0 K b j x j z=\sum\limits_{j=0}^Kb_jx_j z=j=0∑Kbjxj,上述等式又可转化为:
P ( x ) = 1 1 + exp ( − z ) P\left(\mathbf x\right)=\frac{1}{1+\exp(-z)} P(x)=1+exp(−z)1
等式右端被称为 sigmoid 函数(关于 z z z),
- <a href=“http://www.win-vector.com/blog/2011/09/the-simpler-derivation-of-logistic-regression/”, target="_blank">The Simpler Derivation of Logistic Regression