广义线性模型(GLM)初级教程

最新推荐文章于 2024-06-03 15:43:00 发布

rederchen

最新推荐文章于 2024-06-03 15:43:00 发布

阅读量1.7w

点赞数 20

分类专栏：数理统计文章标签：概率论

本文链接：https://blog.csdn.net/qq_35719435/article/details/104432265

版权

本文是广义线性模型(GLM)的初级教程，介绍了指数分布族、连接函数以及参数估计方法。GLM通过连接函数将响应变量的期望值与线性组合的预测变量关联，其中指数分布族包含多种常见分布。正则连接函数是模型的核心，它将条件分布的参数映射到线性表达式。参数估计涉及极大似然估计、牛顿-拉弗森法、Fisher Scoring和IRLS方法。此外，文章还探讨了模型检验，如Pearson残差、Deviance残差和标准化残差。

摘要由CSDN通过智能技术生成

文章目录

广义线性模型

广义线性模型

广义线性模型[generalize linear model(GLM)]是线性模型的扩展，通过连接函数建立响应变量的数学期望值与线性组合的预测变量之间的关系。首先从数学上来看，模型即:

y|x; $\beta$ ~ Exponential distribution family( $\theta$ )
$g(E[y|x])=\beta'x$ , 其中g称为连接函数(link function)

这两点假设是GLM的核心，也即首先因变量y的条件分布(给定自变量X)是服从指数分布族的，其次存在一个连接函数g，能够将我们的预测子 $E [y ∣ x]$ 与线性表达式 $\beta'x$ 之间搭起一个桥梁。因此连接函数也是GLM的一个核心。因此要学习GLM，首先得从指数分布族与连接函数讲起。

指数分布族

指数分布族是一类分布，如果某一分布的概率密度函数可写成以下形式，称其属于指数分布族：
$exp\{\frac{y\theta-b(\theta)}{a(\phi)}+c(y, \phi)\}$
其中 $\theta$ 称为自然参数或正则参数， $\phi$ 称为尺度参数，a,b,c均为函数。
指数分布族包含了我们熟知的很多分布，基本上概率论与数理统计里面的分布都属于指数分布族，如正态分布，伽马分布，二项分布，泊松分布，负二项分布等。
其实关于指数分布族的表示，通常有两种版本，以上为一种，还有一种为：
$f(y)=h(y)\exp \{\eta ({\theta })T(y)-A({\eta })\}$
其实这两种表达差不多，可以相互转化，充分统计量T(y)通常就是y，具体转化读者可自行研究。
以下举两个栗子，为伯努利分布与正态分布化为指数分布族形式：
在这里插入图片描述

关于更多分布转化为指数分布族的细节，可参考Wikipedia指数分布族。

性质

如若将y的概率密度函数写成指数分布族的形式，并且确定了 $\theta, \phi, a,b,c$ 的形式，那么利用这些参数的信息，能够很轻松的求的分布的期望与方差：

$E(y)=b'(\theta)$
$Var(y)=b''(\theta)a(\phi)$

其中b’和b’'为一阶和二阶导数。以伯努利分布与正态分布举例：
在这里插入图片描述

连接函数

前文说过，连接函数即预测子 $E [y ∣ x]$ 与线性表达式 $\beta'x$ 之间的一个桥梁。 $E [y ∣ x]$ 也即y条件分布的参数，因此g是一个将待估参数映射为线性表达式的一个函数，这样就无需直接对参数进行估计，利用连接函数g，转而估计线性表达式中的 $\beta$

如果将2写成逆函数的形式，即 $E[y|x]=g^{-1}(\beta'x)$ ，那么连接函数反过来为y的条件分布的参数提供了一种估计办法（当然比较鸡肋…

正则连接函数(canonical link function)

连接函数从形式上看，可以有很多种，毕竟是可以用户自定。因此需要加上一点限制，使得能够使用的连接函数只有一个。
在连接函数的基础之上，对GLM再增加一点假设

$\theta=\beta'x$ ， $\theta$ 为指数分布族的自然参数

即y的条件分布的自然参数能被x线性表达，如若设 $E[y|x]=\mu$ ，那么根据 $g(E[y|x])=\beta'x$ ，能推得 $\theta=g(\mu)$ 。我们称满足这样条件的连接函数g为正则连接函数。通常我们的GLM模型都带上这一点假设，因此我们常用的都是正则连接函数。

如何找这样的g？

利用指数分布族，能够有效的找到g.
根据指数分布族的性质：

$\mu=E(y|x)=b'(\theta)$

=> $g(b'(\theta))=\theta$
=> $g(\mu) = (b')^{-1}(\mu)$

也即正则连接函数g为b的一阶倒数的反函数。因此，对于整个GLM模型，最重要的是确定y的条件分布，并将其写成指数分布族的形式，确定自然参数，由此可得模型的正则连接函数。

在这里插入图片描述

模型详解

在了解完GLM的两个基础与假设后

最低0.47元/天解锁文章

rederchen

关注

20
点赞
踩
81

收藏

觉得还不错? 一键收藏
1
评论
广义线性模型(GLM)初级教程

文章目录广义线性模型指数分布族性质连接函数正则连接函数(canonical link function)如何找这样的g？模型详解参数估计极大似然估计Newton-Raphson MethodFisher Scoring MethodIteratively Reweighted Least Squares关于FS和IRLS区间估计模型检验Pearson ResidualsDeviance Resid...
复制链接

扫一扫

专栏目录