广义线性回归模型(GLM)是常见正太线性模型的直接推广,它适用于连续数据和离散数据,特别是后者,如属性数据、计数数据。
广义线性回归模型要求响应变量只能通过线性形式依赖于自变量,从而保持了线性自变量的思想。它们对线性模型进行了两个方面的推广:一是通过设定一个连续函数,将响应变量的期望于线性自变量相联系,二是对误差的分布给出一个误差函数。这些推广使许多线性模型的方法能用于一般问题。
回顾下线性模型:
Y = XTβ+ε
这里ε假定有均值为0的正态分布,因此有:
Y ~ N(XTβ, σ2)
于是我们就可以通过最大似然估计法得到参数β和σ的估计,而且这个估计在Y是正态假定下等价于最小估计,对Y取期望可得:
μ=E(Y)=XTβ=η
但是有一个问题就来了我们上面的模型需要满足的是Y符合正太分布,但如果Y有其他限制了,比如Y为频数或者二元响应变量,如果方差依赖均值,那我们上面的模型就没办法使用了,为了适应更加广泛的不同分布的变量,需要推广上面的模型广义线性模型就是把μ和η用一个函数g()连接起来也就是:
g(μ)=η
这就是广义线性模型,我们把g()函数称为连接函数,广义线性模型要求Y服从包括正态分布的的指数分布族中的已知分布就可。
与