Python交叉分析学习笔记
本文将介绍两种方法来进行交叉分析:1.独立T检验 2.数据透视表。
数据源:百度网盘,课程来源:慕课网
数据源
共包括10个变量,如下:satisfaction_level(满意度),last_evaluation(上司评价),number_project(项目数量),average_monthly_hours(每月工作市场),time_spend_company(在公司的时间),Work_accident(工作事故),left(离职率),promotion_last_5years(五年内是否晋升),department(部门),salary(工资高低)。
方法1:独立T检验
任意取数据中的两个属性,根据独立T检验结果,判断两者之间的关系。
1.导入数据
df=pd.read_csv(r'C:\Users\me\Desktop\HR.csv')
#‘r’在这里起转置作用
2.引入必要的模块
import pandas as pd
import numpy as np
import scipy.stats as ss
import matplotlib.pyplot as plt
import seaborn as sns
3.数据清理
(1)去掉空值
df=df.dropna(how='any',axis=0)
#axis=0表示删除整行的数据,how=‘any’表示只要这一行有一个空值就需要删除整行
(2)去掉异常值
df=df[df['last_evalu