毕业设计基于大数据人才岗位数据分析-CSDN博客

本文链接：https://blog.csdn.net/m0_43533/article/details/145437816

1 前言

这里是毕设分享系列，学长分享优质毕业设计项目，今天要分享的是

🚩 基于大数据人才岗位数据分析

项目运行效果：

毕业设计基于大数据人才岗位数据分析

🧿 项目分享:见文末!

1. 数据集说明

这是一份来自厦门人才网的企业招聘数据，采集日期为 2021-01-14，总计 100,077 条记录，大小为 122 M，包含 19 个字段。

2. 数据处理

2.1 数据清洗

使用 pandas 对数据进行清洗，主要包括：去重、缺失值填充、格式化、计算冗余字段。

# 数据重复处理: 删除重复值
# print(data[data.duplicated()])
data.drop_duplicates(inplace=True)
data.reset_index(drop=True, inplace=True)

# 缺失值查看、处理：
data.isnull().sum()

# 招聘人数处理：缺失值填 1 ，一般是一人; 若干人当成 3人
data['num'].unique()
data['num'].fillna(1, inplace=True)
data['num'].replace('若干', 3, inplace=True)

# 年龄要求：缺失值填 无限；格式化
data['age'].unique()
data['age'].fillna('不限', inplace=True)
data['age'] = data['age'].apply(lambda x: x.replace('岁至', '-').replace('岁', ''))

# 语言要求: 忽视精通程度，格式化
data['lang'].unique()
data['lang'].fillna('不限', inplace=True)
data['lang'] = data['lang'].apply(lambda x: x.split('水平')[0] )
data['lang'].replace('其他', '不限', inplace=True)

# 月薪: 格式化。根据一般经验取低值，比如 5000-6000, 取 5000
data['salary'].unique()
data['salary'] = data['salary'].apply(lambda x: x.replace('参考月薪： ', '') if '参考月薪： ' in str(x) else x)
data['salary'] = data['salary'].apply(lambda x: x.split('-', 1)[0] if '-' in str(x) else x )
data['salary'].fillna('0', inplace=True)

# 其它岗位说明：缺失值填无
data.fillna('其他', inplace=True)

# 工作年限格式化
def jobage_clean(x):
    if