相关性反应的是变量之间的变换趋势和程度。范围在-1,+1之间,正值为正相关,负值为负相关,在样本数量充足的情况下,0即意味着两个变量是完全独立的。
1.皮尔森系数(peaarson)
皮尔森系数是利用协方差与变量标准差乘积之比。所以两个变量的标准差不能为0,即每个变量对于所有样本的值不能相同,即变量X不能是[1,1,1,1,1]这种类型.
当皮尔逊相关系数通常用r或ρ表示,度量两变量X和Y之间相互关系(线性相关)
r=1时X与Y关系可以表示为Y=aX+b,a>0;r=-1时X与Y关系表示Y=aX+b,a<0。X与Y相互独立,那么相关性为0。
实践
import pandas as pd
import numpy as np
X1=pd.Series([1, 2, 3, 4, 5, 6])
Y1=pd.Series([0.3, 0.9, 2.7, 2, 3.5, 5])
print(X1.mean())
print(X1.var())
print(X1.cov(Y1))
print(X1.cov(Y1)/(X1.std()*Y1.std()))
#或者直接使用python计算相关性的函数
print(X1.corr(Y1,method="pearson"))#函数默认采用pearson计算相关性。