数据分析–用R语言预测离职(上)
本文参考的文章:
1.R语言-离职率分析
2.R语言-逻辑回归+主成分分析-员工离职预测训练赛
3.Kaggle十大经典案例—员工离职预测
4.Kaggle十大案例精讲(免费)
5.数据分析实例:员工流失建模与预测
数据来源:
SAMPLE DATA: HR Employee Attrition and Performance
数据可以直接下载,字段都是英文的,部分字段描述如下:
变量类型 | 变量名 | 描述 | 取值范围 |
---|---|---|---|
结果变量 | Attrition | 员工是否流失 | Yes, No |
自变量 | Age | 年龄 | 数值 |
BusinessTravel | 出差 | 1.Non-Travel, 2.Travel_Rarely 3.Travel_Frequently | |
Department | 部门 | 1.Sales 2.Research & Development 3.Human Resources | |
DistanceFromHome | 公司到家的距离 | 数值 | |
Education | 学历 | 1 ‘Below College’ 2 ‘College’ 3 ‘Bachelor’ 4 ‘Master’ 5 ‘Doctor’ | |
EducationField | 学历领域 | ||
EnvironmentSatisfaction | 环境满意度 | 1 ‘Low’ 2 ‘Medium’ 3 ‘High’ 4 ‘Very High’ | |
Gender | 性别 | 1.Male 2.Female | |
JobInvolvement | 工作投入 | 1 ‘Low’ 2 ‘Medium’ 3 ‘High’ 4 ‘Very High’ | |
JobLevel | 职位等级 | ||
JobRole | 职位 | ||
JobSatisfaction | 工作满意度 | 1 ‘Low’ 2 ‘Medium’ 3 ‘High’ 4 ‘Very High’ | |
MaritalStatus | 是否结婚 | 1.Single 2.Married 3.Divorced | |
MonthlyIncome | 月收入 | 数值 | |
NumCompaniesWorked | 任职过的企业数量 | 数值 | |
OverTime | 是否加班 | Yes, No | |
PercentSalaryHike | 涨薪百分比 | 数值 | |
PerformanceRating | 绩效评分 | 1 ‘Low’ 2 ‘Medium’ 3 ‘High’ 4 ‘Very High’ | |
RelationshipSatisfaction | 关系满意度 | 1 ‘Low’ 2 ‘Medium’ 3 ‘High’ 4 ‘Very High’ | |
StockOptionLevel | 员工优先认股权 | 数值 | |
TotalWorkingYears | 工龄 | 数值 | |
TrainingTimesLastYear | 上一年培训次数 | 数值 | |
WorkLifeBalance | 工作与生活平衡情况 | 1 ‘Bad’ 2 ‘Good’ 3 ‘Better’ 4 ‘Best’ | |
YearsAtCompany | 在公司工作时间 | 数值 | |
YearsInCurrentRole | 当前职位的工作时间 | 数值 | |
YearsSinceLastPromotion | 距离上次升职的时间 | 数值 | |
YearsWithCurrManager | 与当前经理工作的时间 | 数值 |