用随机森林算法求解kaggle比赛——HR Analytics: Job Change of Data Scientists

最新推荐文章于 2022-07-26 22:17:17 发布

DMU_LZP

最新推荐文章于 2022-07-26 22:17:17 发布

阅读量916

点赞数

文章标签：机器学习

本文链接：https://blog.csdn.net/magic__12/article/details/115608631

版权

本文介绍了如何运用随机森林算法参与kaggle的HR Analytics比赛，目标是预测数据科学家的离职概率。文章详细阐述了数据预处理、模型训练、预测及准确性检验的步骤，并展示了随机森林在解决此类问题上的应用效果。

摘要由CSDN通过智能技术生成

1. 何谓kaggle？
Kaggle是由联合创始人、首席执行官安东尼·高德布卢姆（Anthony Goldbloom）2010年在墨尔本创立的，主要为开发商和数据科学家提供举办机器学习竞赛、托管数据库、编写和分享代码的平台。该平台已经吸引了80万名数据科学家的关注，这些用户资源或许正是吸引谷歌的主要因素。（来源百度百科）
企业或者研究人员通过与kaggle合作，在kaggle上发布一个竞赛题目，题目主要包括：问题描述，数据，评价标准等。参赛者可在kaggle上注册账号然后报名参加比赛，将比赛所需数据下载下来，通过EDA分析，建立数据模型等方式，得到解决方案，通过一定格式将成提交。最后通过评价方制定的评价标准，来评价每一份解决方案，给出排名，并给出相应奖励。
kaggle创立10年以来，已有超过300万用户注册，一个比赛往往有数千乃至数万人报名，参赛者大多数有数据科学、深度学习、人工智能、机器学习相关背景，能在比赛中获取靠前的排名，是具有一定难度的，但这也是对自己能力的一种证明，可在申请学校，或求职中起到一定帮助。
kaggle官网
2. kaggle经典比赛项目：HR Analytics: Job Change of Data Scientists
背景：某公司开展培训，有许多人报名，但是有人想通过培训后继续留在公司，还有人通过培训后就会跳槽，公司需要识别出哪些人还想继续留在公司，那些人想跳槽。这将使培训更有目的性，以及能降低人力和时间成本。
数据：分为训练数据和测试数据，在训练数据和测试数据都包含一些有关求职者的信息，例如：员工ID，性别，学历，工作经历和培训时长等信息，而训练数据较测试数据多一个目标，即员工离职目标值为1，否则为0。
目标：预测员工离职的概率，以及员工信息对求职者离职与否的影响大小。
3.随机森林算法求解上述问题

3.1为什么选择随机森林算法？
随机森林算法是比较新的机器学习模型，有人将随机森林算法誉为当前最好的算法之一。随机森林算法的原理为：是用随机的方式建立一个森林，森林里面有很多的决策树组成，随机森林的每一棵决策树之间是没有关联的。在得到森林之后，当有一个新的输入样本进入的时候，就让森林中的每一棵决策树分别进行一下判断，看看这个样本应该属于哪一类（对于分类算法），然后看看哪一类被选择最多，就预测这个样本为那一类。
随机森林算法对于求解分类问题具有很好的效果。本文所提出的问题，本质就是一个根据员工信息，对员工是否离职进行一个分类问题，因此，运用随机森林算法求解该问题具有很好的效果。
根据问题特点选择好了算法之后，就可以开始进入求解阶段了

3.2数据预处理
数据处理是求解的先行阶段，该阶段主要将比赛所给的数据处理成为所需要的数据。
数据处理第一步：
通过下列语句导入numpy和pandas包，读取比赛给出的数据：

import numpy as np 
import pandas as pd
data = pd.read_csv("C:\\Users\\蓝志鹏\\Desktop\\aug_train.csv")

通过下列数据显示数据前5行和最后5行：

data.head()
data

最低0.47元/天解锁文章

DMU_LZP

关注

0
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫