pandas中的data.corr()函数方法说明及使用

最新推荐文章于 2025-04-22 16:55:29 发布

一颗小萌新

最新推荐文章于 2025-04-22 16:55:29 发布

阅读量7.1w

点赞数 48

文章标签：数据分析 python

本文链接：https://blog.csdn.net/qq_41721951/article/details/109645921

版权

本文介绍了DataFrame.corr()函数的应用，该函数可用于计算不同方法（Pearson、Kendall、Spearman）下的变量相关性，并通过热力图展示变量间的相关性强度。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

数据相关性分析中，经常用到data.corr()函数，data.corr()表示了data中的两个变量之间的相关性，取值范围为[-1,1],取值接近-1，表示反相关，类似反比例函数，取值接近1，表正相关。

DataFrame.corr()函数使用说明如下：

DataFrame.corr(method='pearson', min_periods=1)

参数说明：
method：可选值为{‘pearson’, ‘kendall’, ‘spearman’}
pearson：Pearson相关系数来衡量两个数据集合是否在一条线上面，即针对线性数据的相关系数计算，针对非线性                                           数据便会有误差。
kendall：用于反映分类变量相关性的指标，即针对无序序列的相关系数，非正太分布的数据
spearman：非线性的，非正太分析的数据的相关系数
min_periods：样本最少的数据量
返回值：各类型之间的相关系数DataFrame表格。

首先创建数据

import seaborn as sns
import numpy as np
import pandas as pd

data = pd.DataFrame([[1,6,7,5,1],[2,10,8,3,4],[3,4,0,10,2]],columns=['val1','val2','val3','val4','val5'])
data

5个变量的数据如表所示

各变量数据相关性的热力图

sns.heatmap(data.corr(),linewidths=0.1,vmax=1.0, square=True,linecolor='white', annot=True)

在这里插入图片描述
从图中可以看出，val2和val3的相关性最高为0.83，其次是val2和val5。