广义线性模型
1. 广义线性模型(Generalized Linear Model)
1.1 指数分布族
指数分布族具有如下形式
p ( y ∣ η ) = b ( y ) exp ( η T T ( y ) − a ( η ) ) ) p(y|\eta )=b(y)\exp(\eta ^T T(y)-a(\eta))) p(y∣η)=b(y)exp(ηTT(y)−a(η)))
其中:
- η T \eta ^T ηT为自然参数
- T ( y ) T(y) T(y)为充分统计量,通常 T ( y ) = y T(y)=y T(y)=y
- a ( η ) a(\eta) a(η)为对数分配函数,使得概率分布积分为1的条件得到满足。
a ( η ) = ln ( ∫ x b ( y ) exp ( η T T ( y ) d x ) a(\eta)=\ln(\int_x b(y)\exp(\eta^T T(y)\mathrm{d}x) a(η)=ln(∫xb(y)exp(ηTT(y)dx)
伯努利(Bernoulli)分布、多项式(Multinomial)分布、泊松(Poisson)分布、高斯(Gaussian)分布、gamma分布、 β \beta β分布等均属于指数分布族。
1.2 广义线性模型建模(三个假设)
- y ∣ x ; θ ∼ E x p o n e n t i a l F a m i l y ( η ) y|x;\theta\sim ExponentialFamily(\eta) y∣x;θ∼ExponentialFamily(η),及 y y y的条件概率属于某个指数分布族。
- h θ ( x ) = E [ T ( y ) ∣ x ] h_{\theta}(x)=E[T(y)|x] hθ(x)=E[T(y)∣x],目标函数为充分统计量的条件期望。
η \eta η以不同的连接函数与其它概率分布函数中的参数发生联系,从而得到不同的模型。广义线性模型正是将指数分布族中的所有成员(每个成员正好有一个这样的联系)都作为线性模型的扩展,通过各种非线性的连接函数将线性函数映射到其他空间,从而扩大了线性模型可解决的问题。 - η = θ T x \eta=\theta^T x η=θTx,由于是线性模型,自然参数=参数与 x x x的线性组合。
2. 线性回归推导
2.1 Gaussian 分布的指数分布族形式
在线性回归中, σ \sigma σ对于模型参数 θ \theta θ的选择没有影响,为了推导方便我们将其设为1:
p ( y ∣ μ ) = 1 2 π exp ( − 1 2 ( y − μ ) 2 ) = 1 2 π exp ( − 1 2 y 2 ) exp ( μ y − 1 2 μ 2 ) \begin{aligned} p(y|\mu)&=\frac{1}{\sqrt{2\pi}}\exp(-\frac{1}{2}(y-\mu)^2)\\ &=\frac{1}{\sqrt{2\pi}}\exp(-\frac{1}{2}y^2)\exp(\mu y-\frac{1}{2}\mu ^2) \end{aligned} p(y∣μ)=2π1exp(−21(y−μ)2)=2π1exp(−21y2)exp(μy−21μ2)
得到对应的参数
η = μ T ( y ) = y a ( η ) = 1 2 μ 2 = 1 2 η 2 b ( y ) = 1 2 π exp ( − 1 2 y 2 ) \eta =\mu\\ T(y)=y\\ a(\eta)=\frac{1}{2}\mu ^2=\frac{1}{2}\eta ^2\\ b(y)=\frac{1}{\sqrt{2\pi}}\exp(-\frac{1}{2}y^2) η=μT(y)=ya(η)=21μ2=21η2b(y)=2π1exp(−21y2)
2.2 线性回归建模
- 假设1: y ∣ x ; θ ∼ N ( μ , σ ) y|x;\theta\sim N(\mu,\sigma) y∣x;θ∼N(μ,σ)
- 假设3: η = θ T x \eta=\theta^T x η=θTx
- 假设2:
h θ ( x ) = E [ T ( y ) ∣ x ] = μ = η = θ T x \begin{aligned} h_{\theta}(x)&=E[T(y)|x]\\ &=\mu\\ &=\eta\\ &=\theta^T x \end{aligned} hθ(x)=E[T(y)∣x]=μ=η=θTx
3. 逻辑回归推导
3.1 Bernoulli分布的指数分布族形式
对于逻辑回归,有 p ( y = 1 ; ϕ ) = ϕ p ( y = 0 ; ϕ ) = 1 − ϕ p(y=1;\phi)=\phi\\ p(y=0;\phi)=1-\phi p(y=1;ϕ)=ϕp(y=0;ϕ)=1−ϕ
即 p ( y ∣ ϕ ) = ϕ y ( 1 − ϕ ) 1 − y = exp