pandas实现相关性最强的两个变量

最新推荐文章于 2023-09-21 10:15:07 发布

Brabbitl

最新推荐文章于 2023-09-21 10:15:07 发布

阅读量118

点赞数

文章标签： pandas python 机器学习

本文链接：https://blog.csdn.net/m0_74430631/article/details/129402072

版权

该文展示了如何使用Pandas库中的DataFrame方法`corr()`计算数据框中列之间的相关性，并通过`stack()`,`sort_values()`和`idxmax()`来找出相关性最强的两列。结果是A列与B列的相关性最高。

摘要由CSDN通过智能技术生成

原数据：

import pandas as pd
df=pd.DataFrame({'A':[1,2,4,5,6],'B':[2,4,6,9,10],'C':[2,1,7,2,1]})
df


'''
	A	B	C
0	1	2	2
1	2	4	1
2	4	6	7
3	5	9	2
4	6	10	1

'''

实现相关性可以用到df.corr()得到相关矩阵，相关性系数从-1到1表示相关程度。

(
     df.corr()
     .stack()
     .sort_values(ascending=False)
     .loc[lambda x:x<1]
     .idxmax()
)


'''
('A', 'B')

'''

得到相关性最强的两列的标签。

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

Brabbitl

关注关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
pandas实现相关性最强的两个变量

pandas实现相关性最强的两个变量
复制链接

扫一扫

weixin_39555415的博客

11-21

3636

利用皮尔逊相关系数找出与目标最相关的特征（Python实现）

pwtd_huran的博客

03-28

7362

#coding:utf-8 #检测各特征和辐照度之间的相关性以及各个特征之间的相关性 from __future__ import division import tensorflow as tf import math import csv from sklearn import metrics import numpy as np from math import sqrt from math...

参与评论您还未登录，请先登录后发表或查看评论

Python机器学习：自定义函数筛选相关性高的特征

Sukey666666的博客

01-20

1923

用Python进行数据分析——相关分析

最新发布

CSDN_430422的博客

09-21

7770

近年来，各种机器学习算法越来越多地被应用于数据挖掘与其相关性分析中，旨在实现通过输入数据（特征）即能准确地预测输出数据（标签），从而辅助我们作判断与决策。本篇首先学习两种最基本的机器学习算法：线性回归与逻辑回归。在Python中，使用机器学习算法须导入专用的包scikit-learn，导入方式与numpy/pandas类似。

Python机器学习：corr()分析变量之间的相关关系

Sukey666666的博客

01-16

1万+

用相关矩阵corr()和热力图heatmap()分析变量之间的相关关系

Pandas数据的相关性分析

MachineLearner的博客

03-03

5146

本文的主要内容是基于中国大学mooc（慕课）中的“Python数据分析与可视化”课程进行整理和总结。两个事物，表示成X和Y，如何判断他们之间的相关性？ X增大，Y也增大，两个变量正相关； X增大，Y减小，两个变量负相关； X增大，Y没有明显变化，两个变量不相关；度量两个数据的相关性有以下方法：协方差 ...

利用pandas进行相关性分析并绘制图

dz87505192的博客

10-06

1万+

data=pd.read_csv('modisandobserve.txt') xs=data['observe'] ys=data['modis'] plt.scatter(xs,ys) def slope_intercept(x_val,y_val): x=np.array(x_val) y=np.array(y_val) m=(((np.mean(x)*np.mea

weixin_42523104的博客

02-28

805

这节介绍如何使用pandas做简单的数据分析,内容包括基本统计分析、分组分析、分布分析、交叉分析(透视表)、结构分析和相关性分析以下实例数据文件,可以从该站内链接获取1.基本统计分析一般统计某变量的最大最小值，中值，分位值，中位数，众数，均值等size 计数sum() 求合mean() 均值var() 方差std() 标准差mode() 众数median() 中位数2.分组分析根据分组字段将分析对...

weixin_42500789的博客

12-24

1038

Pandas数据特征分析数据的排序将一组数据通过摘要(有损地提取数据特征的过程)的方式，可以获得基本统计(含排序)、分布/累计统计、数据特征(相关性、周期性等)、数据挖掘(形成知识)。.sort_index()方法在指定轴上根据索引进行排序，默认升序.sort_index(axis=0, ascending=True)In [1]: importpandas as pdIn [2]: import...

Python进行相关分析

weixin_46847902的博客

04-21

3489

python相关函数_使用Python进行相关性分析

weixin_39721924的博客

11-24

1797

在数据分析时，经常会针对两个变量进行相关性分析。在Python中主要用到的方法是pandas中的corr()方法。corr()：如果由数据框调用corr函数，那么将会计算每个列两两之间的相似度，返回DataFramecorr(other)：如果由序列调用corr方法，那么只是该序列与传入的序列之间的相关度，返回一个数值型，大小为相关度我们以pandas.DataFrame.corr()为例进行详细...

python数据分析-相关分析

csdn1561168266的博客

02-18

1587

Python笔记-相关性分析（连续变量和分类变量）

IT1995的博客

02-21

1万+

用python计算变量间相关性

weixin_41593976的博客

10-06

1万+

本文从连续性数据和分类数据来分别展开计算相关性 依据连续性数据求相关系数 import pandas as pd import numpy as np import scipy.stats as ss import matplotlib.pyplot as plt import seaborn as sns #导入相应的模块 sns.set_context(font_scale=1.5) #设置字...

weixin_39611037的博客

11-11

2329

在表格数据集上创建任何机器学习模型之前, 通常我们会检查独立变量和目标变量之间是否存在关系。这可以通过测量两个变量之间的相关性来实现。在 python 中, pandas 提供了一个函数 dataframe.corr() ,仅用于查找数字变量之间的相关性。在本文中, 我们将了解如何找到分类变量和连续变量之间的相关性。案例 1: 当独立变量只有两个值时点双性关联如果分类变量只有两个值 (即 true...

Python 数据相关性分析

热门推荐

SpeculateCat

04-25

9万+

概述在我们的工作中，会有一个这样的场景，有若干数据罗列在我们的面前，这组数据相互之间可能会存在一些联系，可能是此增彼涨，或者是负相关，也可能是没有关联，那么我们就需要一种能把这种关联性定量的工具来对数据进行分析，从而给我们的决策提供支持，本文即介绍如何使用 Python 进行数据相关性分析。关键词 python 方差协方差相关系数离散度 pandas numpy 实验数据准备 ...

python：df.corr() 数据的相关性分析

belldeep的专栏

12-07

1万+

如何使用python中的corr()求解变量之间的相关性？+pcolor的使用。

qq_42612717的博客

05-22

3090

corr()一般用于求解不同变量之间的相关性，值越大表示变量之间的相关性越大。pcolor（x）则是用色块的形式来显示x矩阵对应的图像。代码如下： from pylab import * import matplotlib.pyplot as plot import pandas as pd filePath = (“C:\dataTest.csv”) dataFile = pd.read_csv(filePath,header=None,prefix=“ZW”) print(dataFile) info

pandas corr 相关性分析

04-30

pandas是常用的Python数据处理库之一，其中的corr函数可以用于计算DataFrame或Series之间的相关性。相关性分析是一种常用的统计分析方法，用于研究不同变量之间的关系。 pandas的corr函数可以计算两个变量之间的Pearson相关系数、Spearman秩相关系数、Kendall Tau相关系数等，其中最常用的是Pearson相关系数。Pearson相关系数是一种度量两个变量之间线性关系的测量指标，取值范围为-1到1之间，当相关系数为1时，表示两个变量之间完全正相关；当相关系数为-1时，表示两个变量之间完全负相关；当相关系数为0时，表示两个变量之间不存在线性关系。在使用pandas的corr函数进行相关性分析时，需要注意一些问题。首先，要注意数据的缺失值处理，只有在两个变量之间的数据均不缺失时，才能够计算相关系数；其次，需要注意样本的选择，相关系数的取值会受到样本大小的影响；最后，要考虑多重比较问题，当进行大量的相关性分析时，需要对显著性水平进行相应的调整。综上所述，pandas的corr函数可以用于计算两个变量之间的相关性，但在使用时需要考虑上述问题。此外，还可以使用其他统计软件如SPSS、SAS等进行更加深入的相关性分析。