python分类变量相关性分析_如何在python中检查连续变量和分类变量之间的相关性?...

将分类变量转换为伪变量here,并将变量放入numpy.array中。例如:

data.csv:age,size,color_head

4,50,black

9,100,blonde

12,120,brown

17,160,black

18,180,brown

提取数据:import numpy as np

import pandas as pd

df = pd.read_csv('data.csv')

测向:

将分类变量color_head转换为伪变量:df_dummies = pd.get_dummies(df['color_head'])

del df_dummies[df_dummies.columns[-1]]

df_new = pd.concat([df, df_dummies], axis=1)

del df_new['color_head']

数据框新建:

把它放到numpy数组中:x = df_new.values

计算相关性:correlation_matrix = np.corrcoef(x.T)

print(correlation_matrix)

输出:array([[ 1. , 0.99574691, -0.23658011, -0.28975028],

[ 0.99574691, 1. , -0.30318496, -0.24026862],

[-0.23658011, -0.30318496, 1. , -0.40824829],

[-0.28975028, -0.24026862, -0.40824829, 1. ]])

见:

连续变量相关性分析可以使用Python的pandas库来实现。在Python,可以使用dataframe.corr()函数来计算数字变量之间相关性。首先,需要导入pandas库,并创建一个包含连续变量的数据框。 在下面的示例,我们将使用一个包含年龄和收入的数据框df来进行相关性分析: ```python import pandas as pd df = pd.DataFrame( [[20, 6000], [18, 6500], [17, 4500], [16, 3000], [21, 8000], [23, 18000], [30, 25000], [40, 18000], [55, 10000], [35, 19000], [26, 15000], [27, 8000]], columns=["age", "income"] ) correlation_matrix = df[['age', 'income']].corr(method='pearson') print(correlation_matrix) ``` 上述代码将计算年龄和收入之间的皮尔逊相关系数,并打印相关性矩阵。你可以将'method'参数设置为'spearman'或'kendall'来计算其他相关系数,分别为斯皮尔曼和肯德尔相关系数。 请注意,这只是一个简单的示例,你可以根据实际情况调整代码以适应你的数据集和问题。<span class="em">1</span><span class="em">2</span><span class="em">3</span> #### 引用[.reference_title] - *1* *3* [使用 Python 查找分类变量连续变量之间相关性](https://blog.csdn.net/weixin_39678089/article/details/110130318)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v92^chatsearchT3_1"}}] [.reference_item style="max-width: 50%"] - *2* [Python笔记-相关性分析连续变量分类变量)](https://blog.csdn.net/qq78442761/article/details/123039824)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v92^chatsearchT3_1"}}] [.reference_item style="max-width: 50%"] [ .reference_list ]
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值