几组数据的相关性python_python – 计算所有列之间的成对相关性

最新推荐文章于 2020-12-30 02:11:13 发布

weixin_39681724

最新推荐文章于 2020-12-30 02:11:13 发布

阅读量316

点赞数

文章标签：几组数据的相关性python

from pandas import *

import numpy as np

from libraries.settings import *

from scipy.stats.stats import pearsonr

import itertools

创建随机样本数据：

df = DataFrame(np.random.random((5, 5)), columns=['gene_' + chr(i + ord('a')) for i in range(5)])

print(df)

gene_a gene_b gene_c gene_d gene_e

0 0.471257 0.854139 0.781204 0.678567 0.697993

1 0.292909 0.046159 0.250902 0.064004 0.307537

2 0.422265 0.646988 0.084983 0.822375 0.713397

3 0.113963 0.016122 0.227566 0.206324 0.792048

4 0.357331 0.980479 0.157124 0.560889 0.973161

correlations = {}

columns = df.columns.tolist()

for col_a, col_b in itertools.combinations(columns, 2):

correlations[col_a + '__' + col_b] = pearsonr(df.loc[:, col_a], df.loc[:, col_b])

result = DataFrame.from_dict(correlations, orient='index')

result.columns = ['PCC', 'p-value']

print(result.sort_index())

PCC p-value

gene_a__gene_b 0.461357 0.434142

gene_a__gene_c 0.177936 0.774646

gene_a__gene_d -0.854884 0.064896

gene_a__gene_e -0.155440 0.802887

gene_b__gene_c -0.575056 0.310455

gene_b__gene_d -0.097054 0.876621

gene_b__gene_e 0.061175 0.922159

gene_c__gene_d -0.633302 0.251381

gene_c__gene_e -0.771120 0.126836

gene_d__gene_e 0.531805 0.356315

>使用获取DataFrame列的唯一组合

itertools.combination(iterable,r)

>使用scipy.stats.stats.personr迭代这些组合并计算成对相关性

>将结果(PCC和p值元组)添加到字典中

>从字典构建DataFrame

然后,您还可以保存result.to_csv().您可能会发现使用MultiIndex(包含每列名称的两列)而不是成对关联的已创建名称会很方便.

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

weixin_39681724

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

weixin_39571403的博客

11-15

2540

几组数据的相关性python_Python 计算多个特征之间的相关性

weixin_39771614的博客

11-24

1052

参与评论您还未登录，请先登录后发表或查看评论

weixin_39614521的博客

11-25

144

I have a Pandas Dataframe like so:id cat1 cat2 cat3 num1 num21 0 WN 29 2003 982 1 TX 12 755 763 0 WY 11 845 324 ...

weixin_39732866的博客

11-11

920

没有实际数据很难回答这个问题,但我想你正在寻找这样的东西：Top15["Citable docs per Capita"].corr(Top15["Energy Supply per Capita"])举个例子：import pandas as pddf = pd.DataFrame({"A": range(4), "B&quo...

python3读取excel文件只提取某些行某些列的值方法

09-20

今天小编就为大家分享一篇python3读取excel文件只提取某些行某些列的值方法，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧

几组数据的相关性python_python-计算数据的相关性

weixin_39999536的博客

11-22

1018

几组数据的相关性python_Python 数据相关性分析

weixin_39805529的博客

11-24

919

概述在我们的工作中，会有一个这样的场景，有若干数据罗列在我们的面前，这组数据相互之间可能会存在一些联系，可能是此增彼涨，或者是负相关，也可能是没有关联，那么我们就需要一种能把这种关联性定量的工具来对数据进行分析，从而给我们的决策提供支持，本文即介绍如何使用 Python 进行数据相关性分析。关键词 python 方差协方差相关系数离散度 pandas numpy实验数据准备接下来，我们将使用...

python 两个dataframe 相关性计算_计算所有列之间的成对相关性

weixin_31567239的博客

12-30

3394

from pandas import *import numpy as npfrom libraries.settings import *from scipy.stats.stats import pearsonrimport itertools创建随机样本数据：df = DataFrame(np.random.random((5, 5)), columns=['gene_' + chr(i +...

weixin_39574050的博客

11-24

2164

weixin_39932838的博客

11-24

1931

Python 使用 numpy 计算图像的相关系数（相关性分析）

火星辉

09-07

1万+

# -*- coding: utf-8 -*- ''' Created on 2018-9-7 16:23:25 @author: skyblue ''' import cv2 import numpy as np img0 = cv2.imread('./imagesTest4/0.png', cv2.IMREAD_GRAYSCALE) img1 = cv2.imread('./images...

weixin_39647180的博客

12-14

5976

我有以下pandas数据帧Top15：我创建了一个列,用于估算每人可引用文档的数量：Top15['PopEst'] = Top15['Energy Supply'] / Top15['Energy Supply per Capita']Top15['Citable docs per Capita'] = Top15['Citable documents'] / Top15['PopEst']我想知...

用 Python 对数据进行相关性分析

Python中文社区

07-08

9万+

在进行数据分析时，我们所用到的数据往往都不是一维的，而这些数据在分析时难度就增加了不少，因为我们需要考虑维度之间的关系。而这些维度关系的分析就需要用一些方法来进行衡量，相关性分析就是其中...

python123不能登录_python入门：最基本的用户登录用户登录，三次错误机会

weixin_39878698的博客

11-22

185

原博文2017-11-23 18:49 −1 #!/usr/bin/env python 2 # -*- coding:utf-8 -*- 3 #用户登录，三次错误机会 4 """ 5 导入getpass，给x赋值为1，while真，循环开始， 6 user的赋值等于用户输入的内容，pwd的赋值等于用户输入的内容并且不可见 7...0463相关推荐2019-12-06 14:02 −学...

python求一列的和_python- pandas ：如何计算一列与多列之间的相关性？

weixin_39606019的博客

12-22

1998

import pandas as pdimport numpy as npdf = pd.DataFrame({'group': ['a'] * 5 + ['b'] * 5, 'x1': np.random.normal(0, 1, 10), 'x2': np.random.normal(0, 1, 10), 'y': np.random.normal(0, 1, 10)})dfOut[4]:gr...

如何使用Python的Pandas DateFrame分析两列、多列数据之间的相关性- DataFrame.corr()函数用法解析

跬步Python股票数据量化分析

03-03

2万+

如何使用Python的Pandas中DateFrame 分析两列、多列数据之间的相关性- DataFrame.corr()函数用法解析 Python is a great language for doing data analysis, primarily because of the fantastic ecosystem of data-centric python packages.P...

weixin_39958248的博客

11-22

656

#-*- coding: utf-8 -*-#餐饮销量数据相关性分析计算相关系数from __future__ importprint_functionimportpandas as pdcatering_sale= '../data/catering_sale_all.xls' #餐饮数据，含有其他属性data = pd.read_excel(catering_sale, index_col...

Python 数据相关性分析