概述
皮尔森相关系数也称皮尔森积矩相关系数(Pearson product-moment correlation coefficient) ,是一种线性相关系数,是最常用的一种相关系数。记为r,用来反映两个变量X和Y的线性相关程度,r值介于-1到1之间,绝对值越大表明相关性越强。
定义
总体相关系数ρ定义为两个变量X、Y之间的协方差和两者标准差乘积的比值,如下:
估算样本的协方差和标准差,可得到样本相关系数(即样本皮尔森相关系数),常用r表示:
r还可以由(Xi,Yi)样本点的标准分数均值估计得到与上式等价的表达式:
其中为Xi样本的标准分数、样本均值和样本标准差,n为样本数量。
物理意义
皮尔森相关系数反映了两个变量的线性相关性的强弱程度,r的绝对值越大说明相关性越强。
- 当r>0时,表明两个变量正相关,即一个变量值越大则另一个变量值也会越大;
- 当r<0时,表明两个变量负相关,即一个变量值越大则另一个变量值反而会越小;
- 当r=0时,表明两个变量不是线性相关的(注意只是非线性相关),但是可能存在其他方式的相关性(比如曲线方式);
- 当r=1和-1时,意味着两个变量X和Y可以很好的由直线方程来描述,所有样本点都很好的落在一条直线上。
皮尔森距离
通过皮尔森系数定义:
皮尔森系数范围为[-1,1],因此皮尔森距离范围为[0,2]。
机器学习中的应用
皮尔森(pearson)相关系数、斯皮尔曼(spearman)相关系数和肯德尔(kendall)相关系数并称为统计学三大相关系数。其中,spearman和kendall属于等级相关系数亦称为“秩相关系数”,是反映等级相关程度的统计分析指标。pearson是用来反应俩变量之间相似程度的统计量,在机器学习中可以用来计算特征与类别间的相似度,即可判断所提取到的特征和类别是正相关、负相关还是没有相关程度。
Pearson相关系数的计算方法有三种形式,如下:
皮尔森相关系数是衡量线性关联性的程度,p的一个几何解释是其代表两个变量的取值根据均值集中后构成的向量之间夹角的余弦。
MATLAB函数
构造需要计算相关性的两个变量矩阵,下面X与Y是两个变量取值所构成的向量矩阵。再直接利用matlab函数corr(X,Y,‘type’,‘Pearson’) 计算两个变量间相关性。