TO 藤井树
回归是什么
如何在SPSS中操作
关于结果的解读和分析
写在前面
最近看Xu 工作室的论文,涉及到一个多元线性回归的的内容,正好 “回归” 这一块一直都是不太懂的(当然自身对于这个名词也比较抵触),那就趁着这个机会好好学习一下下吧!
正餐开始
① 回归是什么?
回归就是通过变量的观测值(如年龄、BMI等)来建立与其他变量之间的因果关系(如心率)
比如上面这个栗子,我想研究一下年龄和BMI(自变量)与心率(因变量)之间的关系,就可以使用回归分析。
像我们这个栗子,因变量是连续数值型的(能取到坐标轴上一个一个点的),对于这种类型,我们就需要选择线性回归来进行分析(所不同的是若是一个变量则是一元线性回归,若是两个及以上变量则为多元线性回归
)。
Note:确定用什么回归只看因变量,如果因变量是连续数值型的直接选择多元线性回归
② 在SPSS中如何操作?
将自变量、因变量放在正确的位置,然后将共线性诊断和德宾-沃森给点选上,接着点击“下一步”
在图中,将 ZRESID(标准化残差) 和 ZPRED(标准化预测值) 给点选上,同时将两个残差图显示出来,点击“继续”
由此可以得到回归分析的结果
我们只需要分析两张表:模型摘要和系数即可
③ 关于结果的解读?
首先看R方=0.114,意味着自变量BMI和年龄能够解释心率变化情况的11.4%(即心率变化只有11.4%是由BMI和年龄影响的
)
一般来讲,统计学中要求这个值为30%以上,但是实际结果中若大于10%即认为可以接受
其次看年龄和BMI能不能影响心率,若显著性<0.05,我们就认为是能够显著影响的
同时年龄部分的未标准化系数为-0.184,表明年龄和心率呈负相关关系(即年龄越高心率越低
)
同理可解释BMI与心率的关系。
同时还可以得到一个回归方程,即:
心率 = -0.184 × 年龄 + 0.744 × BMI + 65.788
④ 回归分析的诊断?
截止到这里,回归分析已经完成了,但是我们还需要对刚才的结果做一个诊断(如年龄对心率负向影响,BMI对心率正向影响
),这个结果到底是不是正确的。
这就涉及到回归分析最初始的话题。回归分析要求变量之间是相互独立的,例如一个自变量是BMI,一个变量是体重就不行(因为BMI是由体重变化得出,这两个变量之间有非常强的共线关系);又比如受调者在一个空间下高度集中,如同样的环境下成长,则其心率、身体也会较为相似,也同样不满足相互独立的准则。
具体指标看VIF,VIF小于5则说明不存在多重共线性
同时, “容差” 即为 “Tolerance ”
第二个需要考察的就是样本的残差的正态性问题
用一个简单的例子说明一下下:
回归模型就类似于一件衣服,我们搜集到的变量就是我们的人,其实我们是想为我们这个人量身定制一个衣服来反映这个人的情况(相当于是为BMI何年龄量身定制一个模型,通过这个模型来表达变量之间的关系)如果这个衣服穿在身上完全合身的话,我们就说这个衣服做成功了。也就是说我们为我们的数据量身匹配了一个非常好的模型,那么他们之间就不存在多少残余(即不能匹配的位置)如果这个残余随机散乱分布的,则说明没有问题,意思是我们穿衣服多多少少有一些不合适(偶发性的),我们觉得这可以接受;但是如果这个衣服的某一个袖子特别短或者特别长,这个就是人工的问题了
所以出现偶发性的不合适,我们称为 “残差正态分布”,但是我们可以观测到我们的柱形比正态分布曲线高很多,所以这是不符合残差正态分布的
但是这也可以解释,毕竟我们的自变量只有11.%能被两个因变量解释。
总结
以上就是多元线性回归的内容,接下来还是继续啃文献⑧~