本期介绍一种常用的相关系数:皮尔逊相关系数(Person)。
相关系数可用来衡量两个变量之间的相关性的大小,根据数据满足的不同条件,我们要选择不同的相关系数进行计算和分析。
一、相关的基本数学概念
总体和样本
总体:所要考察对象的全部个体
样本:从总体中所抽取的一部分个体叫做总体的一个样本。
我们可以通过计算样本的统计量来估计总体的统计量
例如:使用样本均值、样本标准差来估计总体的的均值(平均水平)和总体的标准差(偏离程度)
二、皮尔逊相关系数(Person)
1. 协方差(用于引出相关系数的定义)
E(X)为第一个X组数据的均值;E(X)为y组数据的均值。总体的协方差是第i个X和Y减去均值的乘积加和除以样本总数。协方差的大小表示的是两个变量的总体的误差,用于度量各个维度偏离其均值的程度。
协方差为0时,两者独立。协方差的绝对值越大,两者对彼此的影响越大,反之,越小。
由协方差可以引出相关系数的定义。
我们观察协方差的公式,可以发现,X,Y(即,两个变量)的量纲会影响协