用python计算变量间相关性

本文从连续性数据和分类数据来分别展开计算变量间的相关性系数,其中分类变量的相关性系数计算较为复杂,运用了两种方法:(1)根据熵来算相关系数;(2)根据Gini系数计算相关系数
其中连续性数据相关性分析的数据源来自:百度网盘,相应的课程来源:慕课网

数据源

共包括10个变量,如下:satisfaction_level(满意度),last_evaluation(上司评价),number_project(项目数量),average_monthly_hours(每月工作市场),time_spend_company(在公司的时间),Work_accident(工作事故),left(离职率),promotion_last_5years(五年内是否晋升),department(部门),salary(工资高低)。

一.连续性数据

连续性数据可用相关系数直接衡量。

import pandas as pd
import numpy as np
import scipy.stats as ss
import matplotlib.pyplot as plt
import seaborn as sns
#导入相应的模块
sns.set_context(font_scale=1.5)
#设置字体大小为1.5倍
df=pd.read_csv(r'C:\Users\me\Desktop\HR.csv')
#读入数据
df=df.dropna(how='any',axis=0)
#删除缺失值
df=df[df['last_evaluation']<=1][df['salary']!='nme'][df['department']!='sale']
#删除异常值
sns.heatmap(df.corr(),vmin=-1,vmax=1,cmap=sns.color_palette('RdBu',n_colors=128))
#画热力图,图例最小值 -1,最大值1,颜色对象设为红蓝('RdBu'),颜色数目为128
plt.show()

蓝色代表接近1(正相关),红色代表接近于-1(负相关),颜色越深,相关性越强。

二.离散型数据

两类离散属性数据的相关性,只有两个分类,可编码为1或0,可用皮尔逊系数Gini系数来计算。
多类离散属性数据如果为定序数据,可编码成0,1,2,3…

  • 10
    点赞
  • 122
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值