多变量分析方法的选择
1、有因变量,则建立有监督模型。
有监督模型有两大通用目的:1)分析哪些自变量对因变量存在显著影响作用;
2)通过选择对因变量存在显著影响的自变量,建立预测因变量取值的预测模型
1)因变量为连续变量,建立的模型称为回归预测模型:
自变量为连续变量时,可选择回归分析、方差分析;
自变量为分类变量+连续变量,可选择带虚拟变量的回归分析、联合分析、方差分析
2) 因变量为分类变量(定性数据),建立的模型称为分类预测模型:
自变量为连续变量(或连续+分类)时,可选择判别分析、Logistic/probit analysis
自变量为定性数据时,可选择对数线性回归(Logit)。预测因变量是如何分类的,在人文社科常用。
2、无因变量,则建立无监督模型。
只要是无监督分析,都叫做描述分析,分析方法得到的结果没有客观标准判断结论是否准确。
目的:1)对人进行分类;2)对变量/指标进行分类;3)分析变量与变量之间的测量关系
1) 自变量为连续变量时,选择因子分析(其中一个目的就是对变量/指标分类)、聚类分析(对人分类、对变量/指标分类)
2)自变量为分类变量时,选择对应分析(对人分类)、多维尺度分析(对人分类)
3、其他分析
1) 当模型中需要加入潜在变量(通过多个客观指标测量的抽象概念整体)、或需要考虑多个变量之间的因果关系分析模型,建立结构方程模型、路径模型、协方差分析。
2)综合评价:通过多个指标对多个评价对象进行排名,可选择层次分析法(AHP)、因子分析等。
相关系数
1、相关系数是衡量两个变量之间变化趋势的相关性
2、不同变量类型的相关系数
两个变量都为连续变量,则可用Pearson相关系数。在统计中常用r这个符号来表示。
两个变量都为定序变量,则可用GMMA、Spearman、Kendall’s tau-b等相关系数
两个变量都为定类变量,则可用LAMMDA等相关系数
一个变量为定类变量,一个变量为连续变量,可通过ETA系数来测量相关性
3、三种重要相关系数
Pearson相关系数:参数检验,针对两个都是连续变量的数据进行相关性判断
Spearman相关系数:非参数检验,针对两个都是定序变量
Kendall’s tau-b相关系数:非参数检验,针对两个都是定序变量
4、其他概念
常用方法:散点图;计算相关系数
4、相关分析的假设检验
原假设:两个变量来自总体中不存在显著相关性
研究假设:两个变量来自总体中存在显著相关性
显著性检验目的:是用来判断两个变量在总体中是否存在相关性(<0.05,研究假设成立)
相关系数目的:是计算两个变量在样本数据中的相关性强弱
操作:分析-相关-双变量
5、偏相关分析的假设检验
注意:计算相关性的变量为连续变量,加入控制的变量同样也是连续变量
操作:分析-相关-偏相关性
回归分析
1、目的与应用
目的:当需要用一个数学表达式(模型)表示多个因素与另外一个因素之间关系时,可选用回归分析法。
R2:自变量对因变量的解释能力,即r(相关系数)的平方。注意r不一定是一元一次回归模型里x前面的值,x前面的值是要考虑x和y的量纲的。
应用:和有监督模型的两个通用目的相同:
1)分析哪些自变量对因变量存在显著影响作用,R2值可以不要求大于0.8;
2)通过选择对因变量存在显著影响的自变量,建立预测因变量取值的预测模型,模型R2必须要求大于等于0.8。
但是,在人文社科领域,很多回归模型的R2值达不到0.8,也可以用来做预测。