一、概述
(一)变量关系强度
指两个变量相关程度的高低。统计学中是以准实验的思想来分析变量相关的。通常从以下的角度分析:
1.两变量是否相互独立。
2.两变量是否有共变趋势。
3.一变量的变化多大程度上能由另一变量的变化来解释。
(二)四种基本变量
1.定类变量:根据定性的原则区分总体各个案类别的变量
2.定序变量:区别同一类别个案中有等级次序的变量
3.定距变量:区别同一类别个案中等级次序及其距离的变量,无零点概念
4.定比变量:区别同一类别个案中等级次序及其距离的变量,有零点概念
二、两变量的相关性分析
(一)皮尔逊相关系数(Pearson correlation coefficient)
1.又称皮尔逊积矩相关系数(Pearson product-moment correlation coefficient,简称PPMCC或PCCs),是用于度量两个变量X和Y之间的相关(线性相关),其值介于-1与1之间。系数的值为1意味着X和Y可以很好的由直线方程来描述,所有的数据点都很好的落在一条直线上,且Y随着X的增加而增加。系数的值为−1意味着所有的数据点都落在直线上,且Y随着X的增加而减少。系数的值为0意味着两个变量之间没有线性关系。
2.适用于定距、定比类型的变量。 是运用最广的一种相关程度统计量。
3.两个变量之间的皮尔逊相关系数定义为两个变量之间的协方差(Covariance)和标准差(Standard Deviation)的商,估算样本的协方差和标准差,可得到皮尔逊相关系数,常用英文小写字母r代表:
4.检验用t统计量(T-Statistic),其中统计量t服从自由度(n-2)的分布。
其中
为标准误(Standard Error of Mean)
5.适用条件
(1)两变量均应由测量得到的连续变量。
(2)两变量所来自的总体都应是正态分布,或接近正态的单峰对称分布。
(3)变量必须是成对的数据。
(4)两变量间为线性关系。
(二)斯皮尔曼等级相关系数(Spearman's rank correlation coefficient)
1.适用于度量定序变量与定序变量之间的相关。
2.实际应用中,变量间的连结是无关紧要的,于是可以通过简单的步骤计算ρ。
3.(di)^2为被观测的两个变量的等级的差值,n为样本容量,当n>20时,应进行t检验
(三)双变量关系强度测量的主要指标
三、数据降维之主成分分析
(一)概述
1.主成分分析是考察多个变量间相关性一种多元统计方法。研究如何通过少数几个主成分(principal component)来解释多个变量间的内部结构。即从原始变量中导出少数几个主分量,使它们尽可能多地保留原始变量的信息,且彼此间互不相关。常被用来寻找判断事物或现象的综合指标,并对综合指标所包含的信息进行适当的解释。
2.如果第一主成分不足以代表原来p个变量的信息,再考虑选取F2即第二个线性组合。F2称为第二主成分(principal component II)。
3.为了有效地反映原来信息,F1已有的信息就不再出现在F2中,即cov(F1,F2)=0。依此类推,可以获得p个主成分。因此,这些主成分之间是互不相关的,而且方差依次递减。
4.各主成分的累积方差贡献率>80%或特征根>1。
(二)步骤
1.对原来的p个指标进行标准化,以消除变量在水平和量纲上的影响
2.根据标准化后的数据矩阵求出相关系数矩阵
3.求出协方差矩阵的特征根和特征向量
4.确定主成分,并对各主成分所包含的信息给予适当的解释