逻辑斯蒂回归(Logistic regression, LR)
是一个概率模型,判别模型,监督学习模型。虽然名字里带有回归,但却是一个分类模型。
1. LR模型
LR是以逻辑斯蒂函数 f ( x ) = 1 1 + e − ( x − μ ) / γ f(x)=\frac{1}{1+e^{-(x-\mu)/\gamma}} f(x)=1+e−(x−μ)/γ1为后验概率函数的概率模型,基本思路同朴素贝叶斯类似,都是计算待分类记录是各个类别的概率,取概率最大的类别为最终分类结果,以二分类为例,设 A A A是一个类别,计算记录 x x x是类别 A A A的后验概率: P ( y = A ∣ x ) = 1 1 + e − w x P(y=A|x)=\frac{1}{1+e^{-wx}} P(y=A∣x)=1+e−wx1,同时计算记录 x x x是另一个类别 B B B的后验概率: P ( y = B ∣ x ) = 1 − P ( y = A ∣ x ) = e − w x 1 + e − w x P(y=B|x)=1-P(y=A|x)=\frac{e^{-wx}}{1+e^{-wx}} P(y=B∣x)=1−P(y=A∣x)=1+e−wxe−wx取两者中最大的一个为最终对记录 x x x的分类结果。这里记录 x x x表示成输入向量 x = ( x ( 1 ) , x ( 2 ) … x ( m ) ) x=(x^{(1)},x^{(2)}\dots x^{(m)}) x=(x(1),x(2)…x(m)), w = ( w 1 , w 2 … w m ) w=(w_{1},w_{2}\dots w_{m}) w=(w1,w2…wm)是模型参数。需要强调的是,如果 P ( y = A ∣ x ) P(y=A|x) P(y=A∣x)与 P ( y = B ∣ x ) P(y=B|x) P(y=B∣x)的分母是 1 + e − w x + b 1+e^{-wx+b} 1+e−wx+b,即有一个常数因子 b b b,则该常数因子 b b b也可以融入模型参数之中,此时输入向量是 x = { − 1 , x ( 1 ) , x ( 2 ) … x ( m ) } x=\{-1,x^{(1)},x^{(2)}\dots x^{(m)}\} x={ −1,x(1),x(2)…x(m)},模型参数是 w = { b , w 1 , w 2 … w m } w=\{b,w_{1},w_{2}\dots w_{m}\} w={ b,w1,w2…wm}。
可见,LR学习的主要目的就是确定模型参数 w w w。
2. 对数几率函数
在LR中,对数几率函数定义如下
l o g ( P ( y = A ∣ x ) 1 − P ( y = A ∣ x ) ) = w x log(\frac{P(y=A|x)}{1-P(y=A|x)})=wx log(1−P(y=A∣x)P(y=A∣x))=wx
这样处理之后,我们把要计算的函数,从 P ( y = A ∣ x ) = 1 1 + e − w x ~P(y=A|x)=\frac{1}{1+e^{-wx}}~ P(y=A∣x)=1+e−wx1 样子的函数,转变成 l o g ( P ( y = A ∣ x ) 1 − P ( y = A ∣ x ) ) = w x ~log(\frac{P(y=A|x)}{1-P(y=A|x)})=wx~ log(1−P(y=A∣x)P(y=A∣x))=wx 样子的函数,计算难度下降了很多。
当然,这种变换并不是线性变换,但是对我们研究分类来说,又不失一般性。对 l o g ( P ( y = A ∣ x ) 1 − P ( y = A ∣ x ) ) log(\frac{P(y=A|x)}{1-P(y=A|x)}) log(1−P(y=A∣x)P(y=A∣x))函数来说, w x wx wx变大,说明 P ( y = A ∣ x ) P(y=A|x) P(y=A∣x)变大, P ( y = B ∣ x ) P(y=B|x) P(y=B∣x)变小(因为 P ( y = A ∣ x ) + P ( y = B ∣ x ) = 1 P(y=A|x)+P(y=B|x)=1 P(y=A∣x)+P(y=B∣x)=1),当 w x = 1 wx=1 wx=1,说明 P ( y = A ∣ x ) =