广义线性模型是经典线性模型的推广,因此要了解广义线性模型,我们先看一下经典线形模型。给定一个预测值y,经典线性模型假设y是由两部分组成,一部分是随机成分,另一部分是确定成分。对于随机成分而言,假设y是随机变量Y的观测值,并且Y的均值是。对于确定成分而言,我们假设服从如下关系:
x是输入变量,w是相应的参数
对于随机的部分,我们通常会假设随机变量的误差是独立且方差恒定,例如会假设误差服从高斯分布。一个完整的经典线性模型如下:
那么如何对该模型进行推广呢?仔细观察会发现,该模型中假设随机部分的均值是,对于高斯分布,这样假设是没有问题的,可以是任意实数,对于一般线性拟合这样的假设也是合理的。但是对于特定的分布,这样的假设不再合理,因为它们的均值有明显的区间范围,如泊松分布,要求均值大于0,二项式分布要求均值在[0,1]区间内。因此,现在的任务就是如何将一个固定区间映射到实数域,链结函数完成了这个任务。
综上所述,广义线性模型是均值在任意实数区间到指定区间的推广,关键部分是链结函数,它将任意给定分布的区间映射到实数域。最后,给出广义线性模型的主要组成部分:
1.分布函数f(指数族)
2. 线性预测子
3. 链接函数
分布函数是随机成分,线性预测子是确定成分,链接函数完成了均值区间的映射。
参考资料:
1 machine learning a probabilistic perspective 作者: Kevin P. Murphy
2 Generalized Linear Model 作者: P. McCullagh / John A. Nelder 出版社: Chapman and Hall/CRC
3 维基百科