相关性分析
相关分析是指对两个或多个具备相关性的变量元素进行分析,从而衡量两个因素的的相关密切程度,相关性的元素之间需要存在一定的联系或者概率才可以进行相关性分析。
1、 如何利用相关系数判断数据之间的关系
(1) 绘制散点图
判断数据是否具有相关关系,最直观的方法就是绘制散点图
如何要判断多个数据的之间的关系,散点图的绘制就会显得比较繁琐,这时候要选择绘制散点矩阵
(2) 相关系数
相关系数衡量了两个变量的统一程度,范围是-1~1,‘1’代表完全正相关,‘-1’代表完全负相关。
比较常用的是Pearson‘皮尔逊’相关系数、Spearman‘斯皮尔曼’相关系数。
a) Pearson相关系数
也称皮尔森积矩相关系数,一般用于分析,两个连续变量之间的关系,是一种线性相关系数,公式为:
补充:
|r|<= 0.3 不存在线性相关
0.3<=|r|<= 0.5 低度线性关系
0.5<=|r|<= 0.8 显著线性关系
|r| > 0.8 高度线性关系
b) Spearman相关系数
Pearson相关系数要求连续变量的取值服从正态分布,不服从正态分布的变量、分类或等级变量之间的关联性可采用Spearman秩相关系数,也称等级相关系数来描述。公式:
对两个变量成对的取值分别按照从小到大(或者从大到小)顺序编秩