Python数据处理实例
使用python进行数据处理的实例(数据为某公司HR部门关于员工信息的部分摘录,kaggle上面的一次赛题)
https://www.kaggle.com/c/kfru-dbm-hr-analytics
该实例是根据其他所给属性预测员工是否会离职,代码实现如下所示
import pandas as pd
from sklearn.preprocessing import MinMaxScaler,StandardScaler
from sklearn.preprocessing import LabelEncoder,OneHotEncoder
from sklearn.decomposition import PCA
def hr_preprocessing(sl=False,le=False,npr=False,amh=False,tsc=False,wa=False,pl5=False,dp=False,slr=False,lower_id=False,ld_n=1):
df=pd.read_csv('C:\\Users\\Administrator\Desktop\\network\\HR.csv')
#1 清洗数据,根据探索性数据分析出的结果来去掉空值
df=df.dropna(subset=['satisfaction_level','last_evaluation'])
df=df[df['satisfaction_level']<=1][df['salary']!='nme']
#2 得到标注
label=df['left']
df=df.drop('left',axis=1)
#3 特征选择(因为本文的特征本来就不多,暂时不做)
# 4 特征处理&#