提示:之前发的一篇知乎文,因为末尾添加了个人联系等,知乎站务做了删除处理。现在已经去除了个人联系方式。全文阅读约需20分钟。谢谢!
回归分析,方差分析是统计学入门的常开课程。导入数据,输出结果,谈论一下数据显著性,然后就结束了,貌似意犹未竟。我们一起来回顾和再次读一下回归分析,看看回归到底能做什么?
回顾:回归分析的理论思考
选择恰当的线性回归模型,不是一件容易的事情。因为我们面对的世界有很多可变的因素,而这些因素如何互相作用也比较复杂。仅仅用一种模型对收集到的数据(样本)描述,进而去模拟大千世界的各个问题,这的确是不可能的任务。不过,统计模型还是给了我们一些帮助。尤其是在一个大数据当道的今天。
简单来说,选择一种模型就是用数学方式来描述一些变量和另外一个变量的关系。研究团队可能会对这些变量逐一去调查,然后确定是否放到模型中去,基本思路是对很多变量的数据进行测量,然后只筛选那些有关的放到模型中去。这个过程,需要我们考虑很多模型,到底在模型中应该包括多少个变量?
太少:模型太单一,会造成有偏差的估计;
太多:模型过于庞杂,也会造成估计不准;
不多不少:模型包括了适当数目的变量,没有造成偏见,可以最大化的做出了准确估计
下面的例子是200个高中学生的科学、数学、阅读和社会科学四门课程的成绩,还有一个是性别女1,男0。我们提出的模型是学生的数学、阅读、社会科学以及性别为自变量x1-x4,而科学成绩为应变量y, 常量为
。 简单用个公式来表示
或者表示为
提出这个模型后,我们就需要把所有分数值,男女性别等放到这个模型,回归模型就会去估计b0-b4在这个公式中的值。其中b0为常量,也就是当公式右边x的值为零的情况下,科学成绩的估计值就等于这个常量b0。
get file "c:hsb2.sav".
regression
/statistics coeff outs r anova ci
/dependent science
/method = enter math female socst read.
当这段代码在SPSS 运行,或者在图形界面拖放后,你会得到如下4个表格
第一个表格:哪些变量放进或移出了模型?