python数据分析--人员变动情况分析

分析某公司的人员变动情况。
二、数据解读
数字来源于人事系统和手工表
1.数据概述;
员工基本信息表
员工在公司的信息表
员工薪资情况表
员工工时表
2.数据详细概述:
(1)员工基本信息表:姓名、年龄、学历、籍贯、工龄、婚姻情况、有无子女。
(2)员工在公司的信息表:员工号,姓名,司龄,BusinessUnit,Budget Unit,上级,是否离职,离职理由,通勤时间,上次升职时间,对公司的满意度
(3)员工薪资情况表:员工号,姓名,基本薪资,奖金
(4)员工工时表:员工上下班时间,请假、调休、旷工,应工作时间
三、数据预处理
A.缺失值:
对于是否离职字段为空的记录直接删除
其余缺失值用众数填充
B.重复值:
对于员工号相同的记录进行核实,视情况保留。(可能会有再次入职的情况)
C.数据预处理:
将员工基本信息表与员工在公司的信息表进行右联,再将右联后的表与剩下的两张表进行左联
四、特征选择
字段有:员工号、姓名、BusinessUnit、Budget Unit、上级、是否离职、离职理由、通勤时间、上次升职时间、对公司的满意度、学历、籍贯、工龄、婚姻情况、有无子女、基本薪资、奖金、员工上下班时间、请假、调休、旷工。
可以去除上级这个字段、将婚姻情况和有无子女合并为家庭成员。将基本薪资与奖金合并为月总收入,将员工上下班时间、请假、调休、旷工合并为工作时长,工作时长-员工上下班时间为额外工作时间。将BusinessUnit去掉,范围太广,将上级去掉,保留Budget Unit。
剩下的字段有:员工号、姓名、Budget Unit 、是否离职、离职理由、通勤时间、上次升职时间、对公司的满意程度、学历、籍贯、工龄、家庭情况、月总收入、工作时长、额外工作时长。
数据不平衡,评估方法采用roc。
我们采取两种特征选择方法:filter法和Wrapper法,再用交叉验证判断哪种方法好具体描述见此链接
五、数据建模
k折检验。采用决策树里的CART法。
模型评估查看精确率,召回率,f1_score,进行调参。

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值