前程无忧招聘信息数据清洗+聚类分析

本文主要介绍了一次对前程无忧招聘信息的数据清洗过程,包括薪资范围的归类、技能关键词的处理和求职者信息的分类。通过对G列的薪资数据进行归类,AA列的技能关键词处理,以及E列和X列的数据整合,最终进行了匹配度分类,结果显示匹配度0占比最高,其次是匹配度1,而匹配度2和3占比较小。
摘要由CSDN通过智能技术生成

一、提出问题

1. 对G列进行数据清洗,按照无、2000-3999、4000-5999、6000-7999、8000-9999、1万以上进行归类。

2. 对AA列进行数据清洗,要求分成三类:全包含“Photoshop、CorelDRAW,AI”三项技能;包含其中的一或两项;完全不包含。

3. 根据清洗后的G列AA列,以及E列、X列四列数据对求职者信息进行分类,可根据匹配度尝试分成4-5类,并尝试对分类结果进行文字解读。

二、查看数据

2.1 导入数据

# 导入数据
import pandas as pd
df = pd.read_excel('data.xlsx')

 2.2 查看数据

# 查看每一列的数据类型,和数据总数
df.info()
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1430 entries, 0 to 1429
Data columns (total 27 columns):
简历号      1430 non-null int64
应聘职位     1430 non-null object
性别       1430 non-null object
出生日期     1430 non-null datetime64[ns]
年龄       1430 non-null int64
居住地      1430 non-null object
期望薪资     1407 non-null object
地点       1409 non-null object
职能/职位    1430 non-null object
行业       1149 non-null object
工作类型     1430 non-null object
学校       1430 non-null object
办学类型     1430 non-null object
专业       1420 non-null object
工作经验     1348 non-null object
工作时间     1430 non-null object
公司名称     1430 non-null object
公司规模     1430 non-null object
公司行业     1430 non-null object
性质       1430 non-null object
部门       1430 non-null object
职位       1430 non-null object
工作公司数    1430 non-null int64
工作年限     1430 non-null object
工作稳定性    1430 non-null int64
是否稳定     1430 non-null object
技能/语言    578 non-null object
dtypes: datetime64[ns](1), int64(4), object(22)
memory usage: 301.7+ KB

查询结果可知:总共有1430行,27个字段,其中有6个字段有缺失。

三、数据处理

评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值