相关性是一个重要的概念,用来描述两个或多个事物之间的关联程度。在许多领域,相关性被用来帮助人们理解数据之间的关系,以便做出更好的决策。相关性不仅可以帮助我们发现事物之间的联系,还可以帮助我们预测未来的趋势和结果。因此,了解和分析相关性是非常重要的。通过深入研究相关性,我们可以更好地理解世界,做出更明智的选择。
小编在这里只讨论两个变量之间的相关性。我们在课本里面讲过的相关性分析就是一个皮尔逊相关系数,当然这是计算两个数值变量之间的相关性分析。而对于两个分类变量、一个分类和一个数值变量应该怎样进行相关性分析呢?非正态分布下又如何进行相关性分析呢?
其实,差异比较(假设检验)也就是相关性分析。例如不同年龄段的人在消费水平上有差异,也就是说,年龄和消费水平有相关性。
1.数值——数值(有序分类——有序分类)
1.1 服从正态分布(参数检验)
- 皮尔逊相关系数(Pearson Correlation Coefficient):皮尔逊相关系数是一种用于衡量两个连续变量之间线性关系的方法。它的取值范围在-1到1之间,其中1表示完全正相关,-1表示完全负相关,0表示无相关性。皮尔逊相关系数基于协方差和标准差计算,适用于连续型数据且假定数据呈正态分布。
1.2 不服从正态分布(非参数检验)
- 斯皮尔曼相关系数(Spearman Rank Correlation Coefficient):斯皮尔曼相关系数是一种非参数的相关性分析方法,它基于变量的等级顺序而不是原始数值。这使得它更适用于有序数据、序数数据或偏态数据。斯皮尔曼相关系数可以用于测量变量之间的单调关系,不要求数据满足正态分布假设。
- 肯德尔相关系数(Kendall’s Tau Correlation Coefficient):肯德尔相关系数也是一种非参数的相关性分析方法,用于测量两个变量之间的排序关系。它基于排列对的数量,可以度量变量的等级之间的一致性程度。肯德尔相关系数对于小样本数据和存在重复值的情况更稳健。
2.分类——分类
- 卡方检验(独立性检验)
。是用途非常广的一种假设检验方法,它在分类资料统计推断中的应用,包括两个率或两个构成比比较的卡方检验;多个率或多个构成比比较的卡方检验以及分类资料的相关分析等。是一种非参数检验方法
3.数值——分类
分类变量 | 参数检验 | 非参数检验 |
---|---|---|
二分类变量 | 配对样本T检验 | Wilcoxon符号秩检验 |
二分类变量 | 独立样本T检验 | Mann-Whitney 检验 |
多分类变量 | 单因素方差分析分析 | Kruskal-Wallis,Mood’s中值检验 |
多分类变量 | 重复测量的单因素方差分析 | Friedman 检验 |