python 交叉分析 笔记

import pandas as pd
import numpy as np
import scipy.stats as ss
import matplotlib.pyplot as plt
import seaborn as sns
#交叉分析
df = pd.read_csv('HR_comma_sep.csv')
dp_indices = df.groupby(by="sales").indices#全部求均值,根据sales列进行分组。根据indices属性,求分组之后的索引
sales_values =df["left"].iloc[dp_indices["sales"]].values   #取出离职率,取出seles。 iloc是取几行,loc是取到第几行。sales存在的left都需要选取
technical_values =df["left"].iloc[dp_indices["technical"]].values#取left 的前几行,值为分组后technical的索引值
# print(ss.ttest_ind(sales_values,technical_values))#打印P值统计量
#两个两个求p值
dp_keys =list(dp_indices.keys())#取出dp_indices的key,即所有索引值
dp_t_mat = np.zeros([len(dp_keys),len(dp_keys)])#初始化一个矩阵
for i in range(len(dp_keys)):#遍历索引长度
    for j in range(len(dp_keys)):#遍历索引长度
        p_value = ss.ttest_ind(df["left"].iloc[dp_indices[dp_keys[i]]].values
                               ,df["left"].iloc[dp_indices[dp_keys[j]]].values)[1]#计算P的独立检验值
        if p_value <0.05:#使图像更明显
            dp_t_mat[i][j]  = -1#当值小于0.5,说明影响不大,直接设置为-1
        else:
            dp_t_mat[i][j] = p_value    #赋值

sns.heatmap(dp_t_mat,xticklabels=dp_keys,yticklabels=dp_keys)#绘制图像
plt.show()

结果:

 

2.透视表。

import pandas as pd
import numpy as np
import scipy.stats as ss
import matplotlib.pyplot as plt
import seaborn as sns

#透视表
sns.set_context(font_scale=1.5)#设置字体
df = pd.read_csv('HR_comma_sep.csv')
#查找行为promotion_last_5years和salary,列为Work_accident,聚合函数为np.mean。分析离职率与5年来的事故率和晋升之间的联系。
piv_tb = pd.pivot_table(df,values="left",index=['promotion_last_5years','salary']
                        ,columns=['Work_accident'],aggfunc=np.mean)
sns.heatmap(piv_tb,vmin =0,vmax=1,cmap=sns.color_palette("Reds",n_colors=256))
#把图画出来,最大值我为1,最小值为0。cmap设置颜色。
plt.show()

 

结果:

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值