招聘网站—MapReduce数据清洗

最新推荐文章于 2024-06-16 12:44:59 发布

呵呵world

最新推荐文章于 2024-06-16 12:44:59 发布

阅读量2.2k

点赞数 5

分类专栏：大数据文章标签： mapreduce 大数据数据库

本文链接：https://blog.csdn.net/m0_58245389/article/details/131089200

版权

利用MapReduce数据清洗

本关我们主要对爬取到的招聘数据进行清洗，清洗规则如下：

对数据字段中的城市（city）进行处理，只保留其中的市，舍弃区县，例如：深圳·南山区 -> 深圳；
对数据字段中的薪资（salary）计算处理，计算规则如下：

（1）mk-nk：(m+n)/2，结果保留两位小数（注意：也有可能出现 mK-nK）。（2）如果薪资为其他格式的信息，清洗掉这一行数据。
将职位名称（job_name）、技能（skill）中的字母统一转换为小写字母；并将技能（skill）内容中的·使用|代替。

数据集介绍

本数据集是招聘职位数据，包含九个字段的信息，数据集的字段含义说明如下：

部分数据展示

大数据实施管理专家    北京·海淀区    40k-60k    本科    建信金科    2000人以上    新团队，有发

关注

专栏目录