目录
1.简介
相关性分析是指对两个或多个具备相关性的变量元素进行分析,从而衡量两个变量因素的相关密切程度。相关性的元素之间需要存在一定的联系或者概率才可以进行相关性分析。
常见的三种:Pearson相关系数,Kendall相关系数和Spearman相关系数。在这三大相关系数中,spearman和kendall属于等级相关系数亦称为“秩相关系数”,是反映等级相关程度的统计分析指标。最终选择哪种相关系数法,对比结果谁更符合预期效果。
2.Pearson相关系数
算法详解
按照大学的线性数学水平来理解, 它比较复杂一点,可以看做是两组数据的向量夹角的余弦。
常见Pearson有以下几种公式,以下三种公式皆等价

皮尔森相关系数是衡量线性关联性的程度,公式定义为:两个连续变量(X,Y)的pearson相关性系数P(x,y)等于它们之间的协方差cov(X,Y)除以它们各自标准差的乘积(σX,σY)。系数的取值总是在-1到1之间,接近0的变量被成为无相关性,接近1或者-1被称为具有正向或者负向强相关性。
那么皮尔森适用的条件是什么呢?
-
两个变量之间是线性关系,都是连续数据。
-
两个变量的总体是正态分布,或接近正态的单峰分布。
-
两个变量的观测值是成对的,每对观测值之间相互独立。
在满足这些条件后,接下来我们来看下程序,这三种相关系数均可用corr函数实现
①当X与Y是构成一个矩阵时,关于两者相关系数程序格式为
corr(X,Y,'type','Pearson')
②当X是由多个指标数据构成的矩阵时,关于指标间相关系数程序格式为
corr(X,'type','Pearson')
程序实现
数据如下:


这篇博客介绍了相关性分析中的三种主要方法:Pearson相关系数、Kendall相关系数和Spearman相关系数。Pearson系数适用于连续变量且呈线性关系的数据,Kendall和Spearman则适用于等级数据。通过实例展示了如何用代码计算这些系数,并解释了各自适用的条件和计算公式。
最低0.47元/天 解锁文章
5万+

被折叠的 条评论
为什么被折叠?



