用随机森林算法求解kaggle比赛——HR Analytics: Job Change of Data Scientists

本文介绍了如何运用随机森林算法参与kaggle的HR Analytics比赛,目标是预测数据科学家的离职概率。文章详细阐述了数据预处理、模型训练、预测及准确性检验的步骤,并展示了随机森林在解决此类问题上的应用效果。
摘要由CSDN通过智能技术生成

1. 何谓kaggle?
Kaggle是由联合创始人、首席执行官安东尼·高德布卢姆(Anthony Goldbloom)2010年在墨尔本创立的,主要为开发商和数据科学家提供举办机器学习竞赛、托管数据库、编写和分享代码的平台。该平台已经吸引了80万名数据科学家的关注,这些用户资源或许正是吸引谷歌的主要因素。(来源百度百科)
企业或者研究人员通过与kaggle合作,在kaggle上发布一个竞赛题目,题目主要包括:问题描述,数据,评价标准等。参赛者可在kaggle上注册账号然后报名参加比赛,将比赛所需数据下载下来,通过EDA分析,建立数据模型等方式,得到解决方案,通过一定格式将成提交。最后通过评价方制定的评价标准,来评价每一份解决方案,给出排名,并给出相应奖励。
kaggle创立10年以来,已有超过300万用户注册,一个比赛往往有数千乃至数万人报名,参赛者大多数有数据科学、深度学习、人工智能、机器学习相关背景,能在比赛中获取靠前的排名,是具有一定难度的,但这也是对自己能力的一种证明,可在申请学校,或求职中起到一定帮助。
kaggle官网
2. kaggle经典比赛项目:HR Analytics: Job Change of Data Scientists
背景:某公司开展培训,有许多人报名,但是有人想通过培训后继续留在公司,还有人通过培训后就会跳槽,公司需要识别出哪些人还想继续留在公司,那些人想跳槽。这将使培训更有目的性,以及能降低人力和时间成本。
数据:分为训练数据和测试数据,在训练数据和测试数据都包含一些有关求职者的信息,例如:员工ID,性别,学历,工作经历和培训时长等信息,而训练数据较测试数据多一个目标,即员工离职目标值为1,否则为0。
目标:预测员工离职的概率,以及员工信息对求职者离职与否的影响大小。
3.随机森林算法求解上述问题

3.1为什么选择随机森林算法?
随机森林算法是比较新的机器学习模型,有人将随机森林算法誉为当前最好的算法之一。随机森林算法的原理为:是用随机的方式建立一个森林,森林里面有很多的决策树组成,随机森林的每一棵决策树之间是没有关联的。在得到森林之后,当有一个新的输入样本进入的时候,就让森林中的每一棵决策树分别进行一下判断,看看这个样本应该属于哪一类(对于分类算法),然后看看哪一类被选择最多,就预测这个样本为那一类。
随机森林算法对于求解分类问题具有很好的效果。本文所提出的问题,本质就是一个根据员工信息,对员工是否离职进行一个分类问题,因此,运用随机森林算法求解该问题具有很好的效果。
根据问题特点选择好了算法之后,就可以开始进入求解阶段了

3.2数据预处理
数据处理是求解的先行阶段,该阶段主要将比赛所给的数据处理成为所需要的数据。
数据处理第一步:
通过下列语句导入numpy和pandas包,读取比赛给出的数据:

import numpy as np 
import pandas as pd
data = pd.read_csv("C:\\Users\\蓝志鹏\\Desktop\\aug_train.csv")

通过下列数据显示数据前5行和最后5行:

data.head()
data
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值