文章目录
广义线性模型
广义线性模型[generalize linear model(GLM)]是线性模型的扩展,通过连接函数建立响应变量的数学期望值与线性组合的预测变量之间的关系。首先从数学上来看,模型即:
- y|x; β \beta β ~ Exponential distribution family( θ \theta θ)
- g ( E [ y ∣ x ] ) = β ′ x g(E[y|x])=\beta'x g(E[y∣x])=β′x, 其中g称为连接函数(link function)
这两点假设是GLM的核心,也即首先因变量y的条件分布(给定自变量X)是服从指数分布族的,其次存在一个连接函数g,能够将我们的预测子 E [ y ∣ x ] E[y|x] E[y∣x]与线性表达式 β ′ x \beta'x β′x之间搭起一个桥梁。因此连接函数也是GLM的一个核心。因此要学习GLM,首先得从指数分布族与连接函数讲起。
指数分布族
指数分布族是一类分布,如果某一分布的概率密度函数可写成以下形式,称其属于指数分布族:
f ( y ) = e x p { y θ − b ( θ ) a ( ϕ ) + c ( y , ϕ ) } f(y) = exp\{\frac{y\theta-b(\theta)}{a(\phi)}+c(y, \phi)\} f(y)=exp{
a(ϕ)yθ−b(θ)+c(y,ϕ)}
其中 θ \theta θ称为自然参数或正则参数, ϕ \phi ϕ称为尺度参数,a,b,c均为函数。
指数分布族包含了我们熟知的很多分布,基本上概率论与数理统计里面的分布都属于指数分布族,如正态分布,伽马分布,二项分布,泊松分布,负二项分布等。
其实关于指数分布族的表示,通常有两种版本,以上为一种,还有一种为:
f ( y ) = h ( y ) exp { η ( θ ) T ( y ) − A ( η ) } f(y)=h(y)\exp \{\eta ({\theta })T(y)-A({\eta })\} f(y)=h(y)exp{
η(θ)T(y)−A(η)}
其实这两种表达差不多,可以相互转化,充分统计量T(y)通常就是y,具体转化读者可自行研究。
以下举两个栗子,为伯努利分布与正态分布化为指数分布族形式:
关于更多分布转化为指数分布族的细节,可参考Wikipedia指数分布族。
性质
如若将y的概率密度函数写成指数分布族的形式,并且确定了 θ , ϕ , a , b , c \theta, \phi, a,b,c θ,ϕ,a,b,c的形式,那么利用这些参数的信息,能够很轻松的求的分布的期望与方差:
- E ( y ) = b ′ ( θ ) E(y)=b'(\theta) E(y)=b′(θ)
- V a r ( y ) = b ′ ′ ( θ ) a ( ϕ ) Var(y)=b''(\theta)a(\phi) Var(y)=b′′(θ)a(ϕ)
其中b’和b’'为一阶和二阶导数。以伯努利分布与正态分布举例:
连接函数
前文说过,连接函数即预测子 E [ y ∣ x ] E[y|x] E[y∣x]与线性表达式 β ′ x \beta'x β′x之间的一个桥梁。 E [ y ∣ x ] E[y|x] E[y∣x]也即y条件分布的参数,因此g是一个将待估参数映射为线性表达式的一个函数,这样就无需直接对参数进行估计,利用连接函数g,转而估计线性表达式中的 β \beta β
如果将2写成逆函数的形式,即 E [ y ∣ x ] = g − 1 ( β ′ x ) E[y|x]=g^{-1}(\beta'x) E[y∣x]=g−1(β′x),那么连接函数反过来为y的条件分布的参数提供了一种估计办法(当然比较鸡肋…
正则连接函数(canonical link function)
连接函数从形式上看,可以有很多种,毕竟是可以用户自定。因此需要加上一点限制,使得能够使用的连接函数只有一个。
在连接函数的基础之上,对GLM再增加一点假设
- θ = β ′ x \theta=\beta'x θ=β′x, θ \theta θ为指数分布族的自然参数
即y的条件分布的自然参数能被x线性表达,如若设 E [ y ∣ x ] = μ E[y|x]=\mu E[y∣x]=μ,那么根据 g ( E [ y ∣ x ] ) = β ′ x g(E[y|x])=\beta'x g(E[y∣x])=β′x,能推得 θ = g ( μ ) \theta=g(\mu) θ=g(μ)。我们称满足这样条件的连接函数g为正则连接函数。通常我们的GLM模型都带上这一点假设,因此我们常用的都是正则连接函数。
如何找这样的g?
利用指数分布族,能够有效的找到g.
根据指数分布族的性质:
- μ = E ( y ∣ x ) = b ′ ( θ ) \mu=E(y|x)=b'(\theta) μ=E(y∣x)=b′(θ)
=> g ( b ′ ( θ ) ) = θ g(b'(\theta))=\theta g(b′(θ))=θ
=> g ( μ ) = ( b ′ ) − 1 ( μ ) g(\mu) = (b')^{-1}(\mu) g(μ)=(b′)−1(μ)
也即正则连接函数g为b的一阶倒数的反函数。因此,对于整个GLM模型,最重要的是确定y的条件分布,并将其写成指数分布族的形式,确定自然参数,由此可得模型的正则连接函数。