Summary
本文中,你将了解到线性模型的内涵;随机误差项在线性模型中的作用;使用回归分析要检验数据服从正态分布的原因;两种线性模型:回归模型与方差分析模型之间的联系与区别。如果我们经常使用线性模型却不了解它们的内涵,会导致对结果解释上的困难,用一句话形容这种处境就是“麻布口袋上绣花----底子差”。
引言
无论是在科研还是数学建模的过程当中,只要涉及到某一个因素影响另外一个因素或者研究某两个因素之间的相关关系时,首先想到的都应该是线性模型。例如,研究身高与体重的关系,气温与用电量的关系等等。气温与用电量之间相关性很高,在夏天气温很高时或冬天气温很低时,由于空调、冰箱等家电的使用,用电量就高。相反,在春秋季节气温不高也不低,用电量就相对少。但是我们不能由气温准确地决定用电量,因为用电量还受其他因素的影响例如恶劣的天气、测量手段带来的误差等等。因此,我们称气温与用电量相关,而不是用电量由气温决定。线性模型:
,就是一类用来描述相关关系的模型,它包括了线性回归模型、方差分析模型、协方差分析模型和线性混合效应模型等。
线性回归模型
模型简述
我们了解最多的莫过于线性回归模型,线性回归模型有如下表达式:
, (1)
针对某个具体问题,若现在有n组观测数据
皆来自于模型(1),那么结合上数据,该问题可用如下模型描述:
写成矩阵的形式为:
用
分别表示上式中的四个向量或矩阵,则上述模型具有形式:
。因此,线性回归模型属于线性模型。
当仅有一个自变量时,模型(1)变为
。
Y通常称为因变量或响应变量,X称为自变量或解释变量。因变量Y值的构成由两部分组成:一部分是由X能够决定的部分
,另一部分则由其他不可控的因素所产生的影响,它被看作随机误差,记为e。由于随机误差不可避免,例如任一测量手段必定会有误差,人们总是期望n次对Y的测量中,由不可避免的随机误差带来的影响总是在0的附近波动,即e平均水平为0(e的数学期望:
)。
这个假设是合理的。例如,我们要研究气温X对用电量Y的影响,我们必然期望
完全成立,但是现实中,各种测量手段及其他干扰因素同样会对我们得到的用电量数据产生影响,难道我们忽略这些随机干扰因素的存在吗?答案是不能,但是我们却有理由认为这些随机因素满足一定的规律性,例如其平均水平为0,即e总是在0的上或下范围内波动;亦或是更严格一点,假设这些随机干扰因素e服从均值为0,方差为1的正态分布,也是合理的。
尽管我们了解了线性回归模型中含有随机误差e,它的存在会对因变量产生某些影响,但是大多数人更关心因变量Y与自变量X之间的函数关系,也就是因变量Y由X能够决定的部分
。当我们手中有n组数据
,我们就可以利用相关软件或者手算,得出
与
的估计值
与
(手动计算公式可参考“《应用回归分析》何晓群”),得出如下方程:
,
该方程被称为经验回归方程。将任一自变量X的值带入经验回归方程,即可对相应因变量Y的值作出预测。
随机误差项的作用
由模型(1)可知,随机误差项e参与到线性回归模型的构建中,但是经验回归方程的得出似乎没有它什么关系。但是这种说法正确吗?不正确。正是由于随机误差项e的存在,使得线性函数
能够进入到统计学的研究范畴,变为
。在统计学中,我们通常认为X没有随机性,但是Y却因为包含e,带有了随机性。而统计学研究的基本对象就是随机现象,没有随机误差项e,线性函数的研究属于数学学科范畴。因此,在上述的经验回归方程中,随机误差项的存在使得人们对因变量预测的好坏可以给出统计学解释;此外,我们经常使用的回归系数的假设检验、回归方程的假设检验以及相关系数的假设检验,全是基于随机误差项e服从正态分布
设计出的方法。这也就是为什么有的人经常有疑问,做线性回归模型必须检验数据是否服从正态分布吗?是的,严格上说,不检验数据的正态性,你所做的关于线性回归模型的回归系数的假设检验、回归方程的假设检验以及相关系数的假设检验全是错的。但是现实中,很少有人会注意到这一点。
方差分析模型
模型概述
在线性回归模型中,所涉及的自变量X一般来说是连续变量,比如温度就是一个连续变量,连续是指取值连续无间断,例如温度可以取0至100中的任何值。而在方差分析中,自变量是示性变量,示性变量往往表示有或没有,例如施肥与否就能用1和0表示,1就是施肥,0就是未施肥,1和0就表示施肥这个因素的两个水平。所谓单因素方差分析模型就是只有一个因素在变,如施肥与否这个因素;双因素方差分析模型就是两个因素在变,如施氮肥与否以及施磷肥与否。
例如,我们要比较三种药治疗某种疾病的效果,药效度量指标为Y。假设现在对每种药各有n个人服用,记
为第i种药的第j个病人的药效测量值,则可表示为
,(2)
这里
称为总平均(
,其中
为病人服用第i种药的理论药效),
分别表示三种药的效应(
),
表示随机误差,其平均水平为0,彼此之间互不相关。方差分析的目标是探究3种药的理论药效是否有差异,即是否有
成立。等价于探究是否有
成立。若把看
作线性模型的回归系数,其实单因素方差分析就是一个假设检验问题:
不全为0
若
成立,即3种药的理论药效没有差异;若拒绝
,则认为3种药的理论药效有差异,具体什么有哪些差异,还需进一步分析。
在这个问题中,我们感兴趣的因素(或称因子)只有一个,即药品,它有三个不同的品种,称这三个品种为因子的水平或处理,上述模型称为单因素方差分析模型,这是因为我们只有“药品”这一个因素。若用矩阵记号,单因素方差分析模型(2)可写为:
用
分别表示上式中的四个向量或矩阵,则上述模型具有形式:
完全符合线性模型的形式。所不同的是,对方差分析情形中的矩阵X的元素只能取1和0两个值。除第一列外,矩阵X的每一列对应一种药品,若某列中某个位置是1或0,则表示对应的这个病人服用了或没服用该列对应的那种药。也就是说,设计矩阵X中的元素只表示了对应的实验中某个处理效应的存在与否。
关注请微信搜索:统计程序狗(微信号:statistical_dog)