DataFrame.corr(method='pearson', min_periods=1)
作用:
计算列的成对相关性,不包括 NA 和 bull 值,返回相关系数矩阵。
相关系数的绝对值越大,相关性越强:相关系数越接近于1或-1,相关度越强,相关系数越接近于0,相关度越弱。
参数解析:
method:{‘pearson’, ‘kendall’, ‘spearman’} or callable
- pearson:皮尔逊相关系数,也叫标准相关系数。 pearson相关系数衡量的是线性相关关系。若r=0,只能说x与y之间无线性相关关系,不能说无相关关系。
公式:
N ∑ x i y i − ∑ x i ∑ y i N ∑ x i 2 − ( ∑ x i ) 2 N ∑ y i 2 − ( ∑ y i ) 2 \frac{N \sum x_iy_i - \sum x_i \sum y_i}{\sqrt {N \sum x_i^2 - (\sum x_i)^2}\sqrt{N \sum y_i^2 - (\sum y_i)^2}} N∑xi2−(∑xi)2N∑yi2−(∑yi)2N∑xiyi−∑xi∑yi - kendall:kendall秩相关系数
- spearman:spearman相关系数。斯皮尔曼相关系数被定义成等级变量之间的皮尔逊相关系数。对于样本容量为n的样本,n个原始数据被转换成等级数据。
公式:
ρ = ∑ i ( x i − x ˉ ) ( y i − y ˉ ) ∑ i ( x i − x ˉ ) 2 ∑ i ( y i − y ˉ ) 2 \rho = \frac{\sum_i (x_i - \bar x)(y_i - \bar y)}{\sqrt {\sum_i (x_i - \bar x)^2 \sum_i (y_i - \bar y)^2}} ρ=∑i(xi−xˉ)2∑i(yi−yˉ)2∑i(xi−xˉ)(yi−yˉ) - callable:自定义的计算函数
min_periods:int, optional