广义加性模型的定义
前文提到加性模型可描述为多元回归的非参数化平滑回归形式,并举例介绍了一般加性模型(general additive model)。在一般加性模型中,假定响应变量Y服从正态分布,自变量X和响应变量Y的条件均值之间的关系可简单表示为:
式中fn(X)是未指明的函数,需要非参数式地予以估计,“非参数”一词反映了函数fn(X)不是用参数来定义的。与参数多元回归(如多元线性回归)相比,加性模型放宽了对响应关系加和形式的限制,允许任意函数之和来建模结果,自变量和响应变量之间的关系可以为任意线性或非线性。
类似一般线性模型和广义线性模型(GLM)的关系,一般加性模型一般化为广义加性模型(GAM),代表了一类服务于一组来自指数分布族(如正态分布、指数分布、泊松分布、二项分布、负二项分布等)的响应变量的非参数化平滑回归框架,概括形式为:
此时fn(X)仍是非参数的函数,而响应变量Y服从指数分布族中的某种分布(不局限于正态性)。g(μY)代表了响应变量Y条件均值的函数(指数、泊松、二项、负二项等),又称连接函数,与在广义线性模型(GLM)中的理解相似,目的是将各类非正态的指数分布族响应变量的条件均值转化为正态形式的条件均值,以建立和自变量的非参数加和响应关系。
连接函数根据响应变量Y的实际分布而具体为不同公式。例如,当响应变量为泊松分布时,连接函数g(μY) = loge(Y)。一般加性模型事实上属于广义加性模型在正态响应变量时的特殊形式,此时g(μY) = Y。
接下来就展示在R语言中运行广义加性模型的一个例子,在过程中加深理解。
以一个泊松加性模型为例展示R语言执行广义加性模型
前文在“泊松回归的广义线性模型”中,展示了一个通过泊松回归分析计数型响应变量的例子,影响鱼类物种Rhinichthys cataractae丰度的环境因素。在前文中假设R. cataractae丰度的对数均值随环境是线性响应的,最终在6个给定的环境因素中挑选了3个对R. cataractae丰度有重要贡献的环境,并解释了它们的生物学意义。(广义线性模型中,除标准线性回归这种特殊形式外,所描述的均是响应变量通过某种转化形式得到近似正态的转化值后,拟合与自变量的线性关系,而非直接使用原始响应变量数值;如在泊松回归中,涉及了响应变量的某种形式的对数转化,因此泊松回归中自变量和响应变量的对数值之间存在线性关联)
对于其余3个被排除的环境因素而言,主要原因在于R. cataractae丰度的对数均值沿这些环境梯度的变化不存在明显的线性关系。可能归因于两种情况,一是数据比较离散和无序,R. cataractae丰度随这些环境值的改变而呈现无规律的状态,表明影响几乎是随机的;二是可能存在其它非线性的响应模式,R. cataractae丰度随这些环境值的改变虽然有规律但难以通过单向的递增或递减趋势描述出来,因而在广义线性模型的结果中不显著。如果是第一种情况,那就无需多加考虑;但若存在第二种情况,提示可能遗漏了对重要环境影响的解释。
因此,接下来尝试通过拟合泊松响应的广义加性模型(泊松加性模型)对这个数据进行探索,查看和比较这个数据集中,除了线性关系外,R. cataractae物种丰度和环境因素之间是否还存在其它可能的响应状态。
下文中所使用的示例数据和R代码的百度盘链接(提取码,fsls):
https://pan.baidu.com/s/1aAwZP_mQ3nWVk_EEfHnZyg
若百度盘失效,也可在GitHub的备份中获取:
https://github.com/lyao222