广义线性模型(GLM)初级教程

本文是广义线性模型(GLM)的初级教程,介绍了指数分布族、连接函数以及参数估计方法。GLM通过连接函数将响应变量的期望值与线性组合的预测变量关联,其中指数分布族包含多种常见分布。正则连接函数是模型的核心,它将条件分布的参数映射到线性表达式。参数估计涉及极大似然估计、牛顿-拉弗森法、Fisher Scoring和IRLS方法。此外,文章还探讨了模型检验,如Pearson残差、Deviance残差和标准化残差。
摘要由CSDN通过智能技术生成

广义线性模型

广义线性模型[generalize linear model(GLM)]是线性模型的扩展,通过连接函数建立响应变量的数学期望值与线性组合的预测变量之间的关系。首先从数学上来看,模型即:

  1. y|x; β \beta β ~ Exponential distribution family( θ \theta θ)
  2. g ( E [ y ∣ x ] ) = β ′ x g(E[y|x])=\beta'x g(E[yx])=βx, 其中g称为连接函数(link function)

这两点假设是GLM的核心,也即首先因变量y的条件分布(给定自变量X)是服从指数分布族的,其次存在一个连接函数g,能够将我们的预测子 E [ y ∣ x ] E[y|x] E[yx]与线性表达式 β ′ x \beta'x βx之间搭起一个桥梁。因此连接函数也是GLM的一个核心。因此要学习GLM,首先得从指数分布族与连接函数讲起。

指数分布族

指数分布族是一类分布,如果某一分布的概率密度函数可写成以下形式,称其属于指数分布族:
f ( y ) = e x p { y θ − b ( θ ) a ( ϕ ) + c ( y , ϕ ) } f(y) = exp\{\frac{y\theta-b(\theta)}{a(\phi)}+c(y, \phi)\} f(y)=exp{ a(ϕ)yθb(θ)+c(y,ϕ)}
其中 θ \theta θ称为自然参数或正则参数, ϕ \phi ϕ称为尺度参数,a,b,c均为函数。
指数分布族包含了我们熟知的很多分布,基本上概率论与数理统计里面的分布都属于指数分布族,如正态分布,伽马分布,二项分布,泊松分布,负二项分布等。
其实关于指数分布族的表示,通常有两种版本,以上为一种,还有一种为:
f ( y ) = h ( y ) exp ⁡ { η ( θ ) T ( y ) − A ( η ) } f(y)=h(y)\exp \{\eta ({\theta })T(y)-A({\eta })\} f(y)=h(y)exp{ η(θ)T(y)A(η)}
其实这两种表达差不多,可以相互转化,充分统计量T(y)通常就是y,具体转化读者可自行研究。
以下举两个栗子,为伯努利分布与正态分布化为指数分布族形式:
在这里插入图片描述
在这里插入图片描述

关于更多分布转化为指数分布族的细节,可参考Wikipedia指数分布族

性质

如若将y的概率密度函数写成指数分布族的形式,并且确定了 θ , ϕ , a , b , c \theta, \phi, a,b,c θ,ϕ,a,b,c的形式,那么利用这些参数的信息,能够很轻松的求的分布的期望与方差:

  • E ( y ) = b ′ ( θ ) E(y)=b'(\theta) E(y)=b(θ)
  • V a r ( y ) = b ′ ′ ( θ ) a ( ϕ ) Var(y)=b''(\theta)a(\phi) Var(y)=b(θ)a(ϕ)

其中b’和b’'为一阶和二阶导数。以伯努利分布与正态分布举例:
在这里插入图片描述

连接函数

前文说过,连接函数即预测子 E [ y ∣ x ] E[y|x] E[yx]与线性表达式 β ′ x \beta'x βx之间的一个桥梁。 E [ y ∣ x ] E[y|x] E[yx]也即y条件分布的参数,因此g是一个将待估参数映射为线性表达式的一个函数,这样就无需直接对参数进行估计,利用连接函数g,转而估计线性表达式中的 β \beta β

如果将2写成逆函数的形式,即 E [ y ∣ x ] = g − 1 ( β ′ x ) E[y|x]=g^{-1}(\beta'x) E[yx]=g1(βx),那么连接函数反过来为y的条件分布的参数提供了一种估计办法(当然比较鸡肋…

正则连接函数(canonical link function)

连接函数从形式上看,可以有很多种,毕竟是可以用户自定。因此需要加上一点限制,使得能够使用的连接函数只有一个。
在连接函数的基础之上,对GLM再增加一点假设

  • θ = β ′ x \theta=\beta'x θ=βx θ \theta θ为指数分布族的自然参数

即y的条件分布的自然参数能被x线性表达,如若设 E [ y ∣ x ] = μ E[y|x]=\mu E[yx]=μ,那么根据 g ( E [ y ∣ x ] ) = β ′ x g(E[y|x])=\beta'x g(E[yx])=βx,能推得 θ = g ( μ ) \theta=g(\mu) θ=g(μ)。我们称满足这样条件的连接函数g为正则连接函数。通常我们的GLM模型都带上这一点假设,因此我们常用的都是正则连接函数。

如何找这样的g?

利用指数分布族,能够有效的找到g.
根据指数分布族的性质:

  • μ = E ( y ∣ x ) = b ′ ( θ ) \mu=E(y|x)=b'(\theta) μ=E(yx)=b(θ)

=> g ( b ′ ( θ ) ) = θ g(b'(\theta))=\theta g(b(θ))=θ
=> g ( μ ) = ( b ′ ) − 1 ( μ ) g(\mu) = (b')^{-1}(\mu) g(μ)=(b)1(μ)

也即正则连接函数g为b的一阶倒数的反函数。因此,对于整个GLM模型,最重要的是确定y的条件分布,并将其写成指数分布族的形式,确定自然参数,由此可得模型的正则连接函数。

  • 20
    点赞
  • 81
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值