利用dataframe的corr()计算相关系数

最新推荐文章于 2024-07-18 23:27:39 发布

适当喝点

最新推荐文章于 2024-07-18 23:27:39 发布

阅读量1.8w

点赞数 7

文章标签： python 数据分析机器学习

原创不易，未经博主同意严禁转载

本文链接：https://blog.csdn.net/qq_41228463/article/details/105910297

版权

python 同时被 2 个专栏收录

6 篇文章

订阅专栏

数据分析

3 篇文章

订阅专栏

1. 相关性简述

两组数据间的相关性计算可以分为如下3种情况：

数值数据与分类数据
数值数据与数值数据
分类数据与分类数据

计算相关性用到的方法有pearson、spearman、kendall，具体区别如下表所示：

分析方法	数据类型	数据分布	数据间的关系
pearson	数值和数值	正态分布	线性
spearman	数值和数值数值和分类分类和分类	不做要求	不做要求
kendall	数值和数值数值和分类分类和分类	不作要求	不做要求

注：

kendall和spearman属于秩相关；
满足pearson相关系数的数据也可以用spearman计算；
kendall的结果偏小，不建议用。

2. 相关性计算

本篇博客主要使用dataframe中的corr()函数实现两列数据的相关性计算。当然，也可以用sklearn中的特征选择模块来实现，本文不做这部分降解。

2.1 数值与数值的相关性

import pandas as pd

data = pd.DataFrame({'化妆品费': [30, 50, 120, 20, 70, 150, 50, 60, 80, 100],
                     '置装费': [70, 80, 250, 50, 120, 300, 100, 150, 20, 180]})
print(data.corr()) # 计算所有的变量的两两相关性
print(data['化妆品费'].corr(data['置装费'])) # 只计算选择的两个变量的相关性

2.2 数值与分类的相关性

# 情况1：分类标签为数字
data = pd.DataFrame({'id': [3, 2, 1, 1, 2, 3, 2, 3, 1, 1, 2, 3, 1, 2, 1],
                     'age': [27, 33, 16, 29, 32, 23, 25, 28, 22, 18, 26, 26, 15, 29, 26]})
print('pearson:', data['id'].corr(data['age']))
print('spearman', data['id'].corr(data['age'], method='spearman'))

# 情况2：分类标签为字符串
data1 = pd.DataFrame({'id': ['c', 'b', 'a', 'a', 'b', 'c', 'b', 'c', 'a', 'a', 'b', 'c', 'a', 'b', 'a'],
                     'age': [27, 33, 16, 29, 32, 23, 25, 28, 22, 18, 26, 26, 15, 29, 26]})
print('spearman', data1['id'].corr(data1['age'], method='spearman'))

# 输出
# pearson: 0.4465155114816965
# spearman 0.4016086046008866
# spearman 0.4016086046008866

结论：

当数据为数值和数值时，pearson和spearman差不多
关于分类数据的标签，不论时字符串还是数字，都不影响结果

2.3 分类与分类的相关性

data1 = pd.DataFrame({'id': ['c', 'b', 'a', 'a', 'b', 'c', 'b', 'c', 'a', 'a', 'b', 'c', 'a', 'b', 'a'],
                     'age': ['1', '2', '3', '3', '2', '1', '2', '3', '1', '1', '2', '3', '1', '2', '1']})
print('kendall', data1['id'].corr(data1['age'], method='kendall'))
print('spearman', data1['id'].corr(data1['age'], method='spearman'))

# 输出
# kendall 0.1891891891891892
# spearman 0.19191919191919193