皮尔逊pearson相关系数和斯皮尔曼spearman等级相关系数。它们可用来衡量两个变量之间的相关性的大小,根据数据满足的不同条件,我们要选择不同的相关系数进行计算和分析
一、相关概念
总体——所要考察对象的全部个体叫做总体.我们总是希望得到总体数据的一些特征(例如均值方差等)
样本——从总体中所抽取的一部分个体叫做总体的一个样本.
统计量——计算这些抽取的样本的统计量来估计总体的统计量:
例如使用样本均值、 样本标准差来估计总体的均值(平均水平)和总体的标准差(偏离程度)
二、皮尔逊Pearson相关系数
1.总体皮尔逊Pearson相关系数
皮尔逊相关系数也可以看成是剔除了两个变量量纲影响,即将X和Y标准化后的协方差
2.样本皮尔逊Pearson相关系数
3.相关系数可视化
4.注意要点
皮尔逊(Person)相关系数是用来衡量 线性相关性的指标
如果两个变量本身就是线性的关系,那么皮尔逊相关系数绝对值大的就是相关性强,小的就是相关性弱;
在不确定两个变量是什么关系的情况下,即使算出皮尔逊相关系数,发现很大,也不能说明那两个变量线性相关,甚至不能说他们相关,我们一定要画出散点图来看才行
5.对相关系数大小的解释
三、斯皮尔曼spearman相关系数
如果有的数值相同,则将它们所在的位置取算术平均
斯皮尔曼相关系数被定义成 等级 之间的皮尔逊相关系数