对数几率回归(逻辑回归)
广义线性模型:
- 指数族分布
指数族(Exponential family)分布是一类分布的总称,该类分布的分布律(或者概率密度函数)的一般形式如下:
p ( y ; η ) = b ( y ) exp ( η T T ( y ) − a ( η ) ) p(y ; \eta)=b(y) \exp \left(\eta^{T} T(y)-a(\eta)\right) p(y;η)=b(y)exp(ηTT(y)−a(η))
其中 η \eta η称为该分布的自然参数; T ( y ) T(y) T(y)为充分统计量,视具体的分布而定,通常是等于随机变量y本身; a ( η ) a(\eta) a(η)为配分函数; b ( y ) b(y) b(y)为关于随机变量y的函数。常见的伯努利分布和正态分布均属于指数族分布。
以下证明伯努利属于指数族分布:
p ( y ) = ϕ y ( 1 − ϕ ) 1 − y p(y)=\phi^{y}(1-\phi)^{1-y} p(y)=ϕy(1−ϕ)1−y
其中 y ∈ { 0 , 1 } y \in {\{0,1\}} y∈{
0,1}, p ( y = 1 ) = ϕ p(y=1) = \phi p(y=1)=ϕ对上式恒等变形可得
p ( y ) = ϕ y ( 1 − ϕ ) 1 − y = exp ( ln ( ϕ y ( 1 − ϕ ) 1 − y ) ) = exp ( ln ϕ y + ln ( 1 − ϕ ) 1 − y ) \begin{aligned} p(y) &=\phi^{y}(1-\phi)^{1-y} \\ &=\exp \left(\ln \left(\phi^{y}(1-\phi)^{1-y}\right)\right) \\ &=\exp \left(\ln \phi^{y}+\ln (1-\phi)^{1-y}\right) \end{aligned} p(y)=ϕy(1−ϕ)1−y=exp(ln(ϕy(1−ϕ)1−y))=exp(lnϕy+ln(1−ϕ)1−y)
p ( y ) = exp ( y ln ϕ + ( 1 − y ) ln ( 1 − ϕ ) ) = exp ( y ln ϕ + ln ( 1 − ϕ ) − y ln ( 1 − ϕ ) ) = exp ( y ( ln ϕ − ln ( 1 − ϕ ) ) + ln ( 1 − ϕ ) ) = exp ( y ln ( ϕ 1 − ϕ ) + ln ( 1 − ϕ ) ) \begin{aligned} p(y) &=\exp (y \ln \phi+(1-y) \ln (1-\phi)) \\ &=\exp (y \ln \phi+\ln (1-\phi)-y \ln (1-\phi)) \\ &=\exp (y(\ln \phi-\ln (1-\phi))+\ln (1-\phi)) \\ &=\exp \left(y \ln \left(\frac{\phi}{1-\phi}\right)+\ln (1-\phi)\right) \end{aligned} p(y)=exp(ylnϕ+(1−y)ln(1−ϕ))=exp(ylnϕ+ln(1−ϕ)−yln(1−ϕ))=exp(y(lnϕ−ln(1−ϕ))+ln(1−ϕ))=exp(yln(1−ϕϕ)+ln(1−ϕ))
对比指数族分布可知
b ( y ) = 1 η = ln ( ϕ 1 − ϕ ) T ( y ) = y a ( η ) = − ln ( 1 − ϕ ) = ln ( 1 + e η ) \begin{aligned} b(y) &=1 \\ \eta &=\ln \left(\frac{\phi}{1-\phi}\right) \\ T(y) &=y \\ a(\eta) &=-\ln (1-\phi)=\ln \left(1+e^{\eta}\right) \end{aligned} b(y)η