相关性分析是一件很自然而然的事情,在生活中和科学研究中,我们都可能会不由自主地关注两件或者多件事情之间的联系。比如性别和方向感有没有关系,有多大关系,辨别不同事物时如何说明特征的科学性(也就是该特征和事物的相关性),一开始可能是对某些现象的联系的模糊感觉,如何验证这种感觉,如何衡量事情之间的相关程度呢?这个过程其实做的就是相关性分析了。
写在前面,独立一定不相关(不管是什么维度的相关),不相关不一定独立。独立是更强的不相关,所以如果进行独立性检验之后得到相互独立,即不相关,则无需再进行相关性分析。
目录
1. 皮尔逊相关系数(Pearson Correlation Coefficient)
2. 斯皮尔曼秩相关系数(Spearman's Rank Correlation Coefficient)
5. 多元相关分析(Multiple Correlation)
7. 格兰杰因果检验(Granger Causality Test)
相关性分析方法
相关性分析是一种统计方法,用于研究变量之间的关系和依赖性。它广泛应用于社会科学、经济学、医学、市场研究等领域。以下是几种常见的相关性分析方法:
1. 皮尔逊相关系数(Pearson Correlation Coefficient)
- 定义:衡量两个连续变量之间的线性关系,取值范围为-1到1。(0为不线性相关,负数值为负相关,正数值为正相关)
常用的概率论教材中提到的相关系数都是皮尔逊相关系数,注意的是它衡量的是线性关系,Pearson相关系数为0只能说明没有线性关系,变量之间可能存在更高维度的相关关系。
- 公式:
- 优点:简单直观,适用于正态分布数据。
- 缺点:只衡量线性关系,对异常值敏感。
用于分析两个连续变量之间的线性关系,如身高与体重、温度与电力消耗等。
2. 斯皮尔曼秩相关系数(Spearman's Rank Correlation Coefficient)
- 定义:衡量两个变量的单调关系,不要求线性或正态分布。
- 公式:
其中,𝑑𝑖是第i对变量的秩差,n是样本数量。 - 优点:对异常值不敏感,适用于非线性关系。
- 缺点:不能区分多种不同类型的单调关系。
用于分析两个变量之间的非线性单调关系,如排名数据、非正态分布的数据。
3. 肯德尔相关系数(Kendall's Tau)
- 定义:用于衡量两个变量排序一致性的统计量。
- 公式:
其中,C是顺序对数,D是逆序对数,n是样本数量。
- 优点:对小样本更稳健,适用于非线性关系。
- 缺点:计算复杂度较高。
适用于小样本数据和排序数据,如社会科学中的问卷调查数据。
4. 偏相关分析(Partial Correlation)
- 定义:在控制其他变量的影响下,测量两个变量之间的相关性。
- 公式:偏相关系数r_{XY.Z}可以通过以下关系计算:
- 优点:可以排除混杂变量的影响,更准确地描述两个变量之间的关系。
- 缺点:需要更多的数据和计算。
用于多变量数据分析,如控制经济学中的其他因素研究收入与支出的关系。
5. 多元相关分析(Multiple Correlation)
- 定义:用于研究一个因变量与多个自变量之间的关系。
- 公式:多元相关系数R可以通过以下公式计算:
其中,SSE是回归模型的误差平方和,SST是总平方和。
- 优点:可以分析复杂系统中的多个变量。
- 缺点:解释和模型构建较复杂。
适用于复杂系统中的多个变量分析,如市场研究中的多因素影响分析。
6. 卡方检验(Chi-Square Test)
- 定义:用于分类变量之间的相关性分析。
- 公式:卡方统计量𝜒2可以通过以下公式计算:
其中,O_i是观察频数,E_i是期望频数。
- 优点:适用于分类数据,不要求连续性。
- 缺点:对小样本数据效果不佳。
适用于分类数据分析,如市场调查中的性别与购买行为的相关性。
7. 格兰杰因果检验(Granger Causality Test)
- 定义:用于时间序列数据,判断一个时间序列是否能预测另一个时间序列。
- 方法:通过比较不同滞后期的回归模型,确定因果关系。
- 优点:适用于动态系统中的时间序列数据。
- 缺点:需要较长的时间序列数据。
适用于动态系统中的时间序列数据,如经济学中的GDP与消费之间的关系。
方法选择
已经把各种方法适用的场景进行了一定的说明,以下再进行一定的分析总结:
选择合适的相关性分析方法和分析系数需要综合考虑数据的特性、研究目标和具体的应用场景。以下是一些判断和选择相关性分析方法的指导原则:
1. 数据类型
连续变量
- 皮尔逊相关系数:如果两个变量都是连续的,并且假设其关系是线性的,且数据接近正态分布。
- 偏相关分析:如果需要在控制其他连续变量的情况下,分析两个连续变量的关系。
有序数据
- 斯皮尔曼秩相关系数:如果数据是有序的,但不一定是连续的,且关系可能是单调的(非线性也可以)。
- 肯德尔相关系数:用于分析有序数据间的一致性,更适合处理小样本数据。
分类变量
- 卡方检验:如果数据是分类的,用于检测不同类别之间的相关性。
时间序列数据
- 格兰杰因果检验:用于时间序列数据,检测一个时间序列是否能预测另一个时间序列。
2. 数据分布和关系性质
线性关系
- 皮尔逊相关系数:适用于线性关系,且数据接近正态分布。
非线性或单调关系
- 斯皮尔曼秩相关系数:适用于非线性但单调关系的数据,且对异常值不敏感。
- 肯德尔相关系数:适用于测量排序数据之间的一致性,更适合处理小样本数据。
3. 控制其他变量
控制混杂变量
- 偏相关分析:在控制其他变量的影响下,分析两个变量之间的关系。
4. 数据规模
大样本
- 皮尔逊相关系数和斯皮尔曼秩相关系数:均适用于大样本数据。
- 偏相关分析和多元相关分析:适用于大规模数据的复杂关系分析。
小样本
- 肯德尔相关系数:对小样本更为稳健。
- 卡方检验:注意小样本时的期望频数要求。
5. 研究目标
简单相关性
- 皮尔逊相关系数:用于简单的线性相关性分析。
- 斯皮尔曼秩相关系数和肯德尔相关系数:用于简单的单调关系分析。
多变量关系
- 偏相关分析:用于分析控制其他变量后的相关性。
- 多元相关分析:用于研究一个因变量与多个自变量之间的关系。
因果关系
- 格兰杰因果检验:用于时间序列数据中的因果关系检测。
判断选择方法的适当性
- 数据可视化:通过散点图、箱线图等可视化工具,初步判断数据的分布和关系性质。
- 检验假设:使用统计检验,如正态性检验,判断数据是否符合方法的假设条件。
- 计算并比较:实际计算各相关系数,并根据结果合理解释。比如,线性关系时皮尔逊系数高,而斯皮尔曼和肯德尔系数相对较低,则皮尔逊系数更适合。
- 文献查阅:参考类似研究中常用的方法,确保选择的分析方法具有合理性和可靠性。
实例举例
-
实例1:分析学生的学习时间与考试成绩的关系
- 数据类型:连续变量
- 方法选择:皮尔逊相关系数(假设关系是线性的,且数据接近正态分布)
-
实例2:分析客户满意度评分与服务质量评级的关系
- 数据类型:有序数据
- 方法选择:斯皮尔曼秩相关系数(评分和评级是有序的,关系可能是单调的)
-
实例3:分析不同市场营销策略对销售量的影响
- 数据类型:分类变量和连续变量
- 方法选择:卡方检验(分类变量之间的相关性),皮尔逊相关系数(连续变量之间的线性关系)
-
实例4:分析经济指标(如GDP)对消费支出的预测能力
- 数据类型:时间序列数据
- 方法选择:格兰杰因果检验(时间序列数据中的因果关系)