前程无忧招聘信息数据清洗+聚类分析

最新推荐文章于 2024-05-28 00:37:11 发布

KuebikoA

最新推荐文章于 2024-05-28 00:37:11 发布

阅读量3.8k

点赞数

文章标签：数据分析

本文链接：https://blog.csdn.net/mxx4206/article/details/121391487

版权

本文主要介绍了一次对前程无忧招聘信息的数据清洗过程，包括薪资范围的归类、技能关键词的处理和求职者信息的分类。通过对G列的薪资数据进行归类，AA列的技能关键词处理，以及E列和X列的数据整合，最终进行了匹配度分类，结果显示匹配度0占比最高，其次是匹配度1，而匹配度2和3占比较小。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

一、提出问题

1. 对G列进行数据清洗，按照无、2000-3999、4000-5999、6000-7999、8000-9999、1万以上进行归类。

2. 对AA列进行数据清洗，要求分成三类：全包含“Photoshop、CorelDRAW,AI”三项技能；包含其中的一或两项；完全不包含。

3. 根据清洗后的G列AA列，以及E列、X列四列数据对求职者信息进行分类，可根据匹配度尝试分成4-5类，并尝试对分类结果进行文字解读。

二、查看数据

2.1 导入数据

# 导入数据
import pandas as pd
df = pd.read_excel('data.xlsx')

2.2 查看数据

# 查看每一列的数据类型，和数据总数
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1430 entries, 0 to 1429
Data columns (total 27 columns):
简历号      1430 non-null int64
应聘职位     1430 non-null object
性别       1430 non-null object
出生日期     1430 non-null datetime64[ns]
年龄       1430 non-null int64
居住地      1430 non-null object
期望薪资     1407 non-null object
地点       1409 non-null object
职能/职位    1430 non-null object
行业       1149 non-null object
工作类型     1430 non-null object
学校       1430 non-null object
办学类型     1430 non-null object
专业       1420 non-null object
工作经验     1348 non-null object
工作时间     1430 non-null object
公司名称     1430 non-null object
公司规模     1430 non-null object
公司行业     1430 non-null object
性质       1430 non-null object
部门       1430 non-null object
职位       1430 non-null object
工作公司数    1430 non-null int64
工作年限     1430 non-null object
工作稳定性    1430 non-null int64
是否稳定     1430 non-null object
技能/语言    578 non-null object
dtypes: datetime64[ns](1), int64(4), object(22)
memory usage: 301.7+ KB

查询结果可知：总共有1430行，27个字段，其中有6个字段有缺失。