#导入相关的库、数据
import pandas as pd
import numpy as np
import os
os.chdir('D:\\已发文\\汇总表格')
df=pd.read_excel('2015-2020入职人员信息.xlsx',encoding='gbk')
df.columns
#进行数据预处理
#1、将各特征变成虚拟变量
df['school_985']=df.apply(lambda x : 1 if x['学校类型']==985 else 0,axis=1)
df['school_211']=df.apply(lambda x : 1 if x['学校类型']==211 else 0,axis=1)
df['school_overseas']=df.apply(lambda x : 1 if x['学校类型']=='海外高校' else 0,axis=1)
df['school_guangdong']=df.apply(lambda x : 1 if x['学校类型']=='广东六所' else 0,axis=