参考NG的lecture note1 part3
本文将首先简单介绍指数族分布,然后介绍一下广义线性模型(generalized linear model, GLM), 最后解释了为什么逻辑回归(logistic regression, LR) 是广义线性模型的一种。
指数族分布
指数族分布 (The exponential family distribution),区别于指数分布(exponential distribution)。在概率统计中,若某概率分布满足下式,我们就称之属于指数族分布。
p ( y ; η ) = b ( y ) exp ( η T T ( y ) − a ( η ) ) p(y;\eta)=b(y)\exp(\eta^T T(y)-a(\eta)) p(y;η)=b(y)exp(ηTT(y)−a(η))
其中 η \eta η是natural parameter, T ( y ) T(y) T(y)是充分统计量, exp − a ( η ) ) \exp^{-a(\eta))} exp−a(η))是起到归一化作用。 确定了 T , a , b T,a,b T,a,b,我们就可以确定某个参数为 η \eta η的指数族分布.
统计中很多熟悉的概率分布都是指数族分布的特定形式,如伯努利分布,高斯分布,多项分布(multionmal), 泊松分布等。下面介绍其中的伯努利分布和高斯分布。
- 伯努利分布
p ( y ; ϕ ) = ϕ y ( 1 − ϕ ) 1 − y = e x p [ y log ϕ + ( 1 − y ) log ( 1 − ϕ ) ] = e x p [ y log ϕ 1 − ϕ + l o g ( 1 − ϕ ) ] p(y;\phi)=\phi^y (1-\phi)^{1-y} \\=exp[y\log\phi+(1-y)\log(1-\phi)] \\=exp[y\log \frac{\phi}{1-\phi}+log(1-\phi)] p(y;ϕ)=ϕy(1−ϕ)1−y=exp[ylogϕ+(1−y)log(1−ϕ)]=exp[ylog