招聘网站—MapReduce数据清洗

招聘网站—MapReduce数据清洗

任务描述

利用MapReduce数据清洗

本关我们主要对爬取到的招聘数据进行清洗,清洗规则如下:

  1. 判断数据长度是否为 9 并判断数据字段是否完整,如有不完整字段(字段值为空),则清洗掉这一行数据;

  2. 对整条数据都一样的进行去重处理;

  1. 对数据字段中的城市(city)进行处理,只保留其中的市,舍弃区县,例如:深圳·南山区 -> 深圳;

  2. 对数据字段中的薪资(salary)计算处理,计算规则如下:

    (1)mk-nk:(m+n)/2,结果保留两位小数(注意:也有可能出现 mK-nK)。 (2)如果薪资为其他格式的信息,清洗掉这一行数据。

  3. 将职位名称(job_name)、技能(skill)中的字母统一转换为小写字母;并将技能(skill)内容中的·使用|代替。

  1. 清洗完的数据集存储到 /root/files 目录下,分隔方式为 \t。

数据集介绍

本数据集是招聘职位数据,包含九个字段的信息,数据集的字段含义说明如下:

字段名 说明
job_name 工作名称
city 城市
salary 薪水
workingExp 工作年限
edu 学历要求
company_name 公司名称
company_size 公司规模
welfare 福利待遇
skill 技能

部分数据展示

大数据实施管理专家    北京·海淀区    40k-60k    本科    建信金科    2000人以上    新团队,有发
  • 5
    点赞
  • 12
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值