Python机器学习：corr()探索自变量与因变量的相关性

紫昂张

已于 2023-07-30 17:22:36 修改

阅读量3.2k

点赞数 5

分类专栏： Python机器学习文章标签： python 人工智能算法

于 2023-01-18 23:11:15 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Sukey666666/article/details/128731319

版权

Python机器学习专栏收录该内容

30 篇文章 10 订阅

订阅专栏

文章讲述了如何使用相关矩阵corr()来找出与因变量强相关的变量，通过sort_values()排序并用plot()进行可视化，以确定哪些特征影响较大。低相关性的变量可能会被删除，以简化模型并提高训练效率。示例中，age和policy_annual_premium等特征因相关系数接近0而被标记为可删除。

摘要由CSDN通过智能技术生成

可以用相关矩阵corr()探索哪些变量与因变量是有强相关关系的，再用sort_values()将数据从大到小排序，并配合使用plot()对数据进行可视化，让结果更加直观。相关性弱的变量对模型的训练并没有帮助，因此可以把相关性弱的变量删除，只保留强相关的变量。

train.corr()['fraud_reported'].sort_values(ascending = False).plot(kind='bar')

代码讲解：

train是数据集；

train.corr()调用相关矩阵的函数，生成相关矩阵；

train.corr()['fraud_reported']筛选其中的一列，也就是自变量与因变量的相关关系所在的那一列；

sort_values()是排序函数，sort_values()里不加参数指的是从小到大排序；排序函数里面的ascending = False参数指从大到小排序；

plot()是折线图，plot(kind='bar')指柱状图；

对train数据集连续用了3个方法，分别是：①corr()生成相关矩阵；②把所需的字段fraud_reported筛选出来后，用sort_values()函数进行排序；③用plot()生成柱状图；

运行结果：

图太小了，可以用figure()函数调整画布大小：

import matplotlib.pyplot as plt
plt.figure(figsize=(15,8))

代码讲解：

plt是包名的简写，在前面有import过；

figsize里面的两个数字代表宽度和高度，这里设置宽15高8；

运行结果：

可以发现，age、policy_annual_premium等几个特征与因变量的相关系数几乎为0，说明对结果的影响很小，可以进行删除处理。

关注

5
点赞
踩
12

收藏

觉得还不错? 一键收藏
0
评论
Python机器学习：corr()探索自变量与因变量的相关性

相关矩阵corr()探索相关关系，sort_values()将数据从大到小排序，用plot()对数据进行可视化
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。