第1关:数据清洗MapReduce综合应用案例 — 招聘数据清洗

该博客主要介绍了如何对包含大数据工程师职位信息的数据进行清洗,包括处理薪资、转换城市编码为城市名称,并将清洗后的数据存储到HBase数据库中。涉及的工具有MySQL、HBase和Java相关库,如阿里巴巴的FastJSON和Hadoop的MapReduce。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

根据提示,在右侧编辑器补充代码,对数据按照一定规则进行清洗。

数据说明如下:data.json

数据所在位置:/root/data/data.json

{
    "id":4,
    "company_name":"智联招聘网/Zhaopin.com",
    "eduLevel_name":"本科",
    "emplType":"全职",
    "jobName":"大数据工程师010",
    "salary":"20K-30K",
    "createDate":"2019-04-21T12:14:27.000+08:00",
    "endDate":"2019-05-21T12:14:27.000+08:00",
    "city_code":"530",
    "companySize":"1000-9999人",
    "welfare":"",
    "responsibility":"岗位职责:1、负责体系大数据分析的ETL的代码开发及优化;2、...",
    "place":"北京市朝阳区望京阜荣街10号首开广场5层",
    "workingExp":"1-3年"
}
id company_name eduLevel_name emplType jobName salary createDate endDate city_code companySize welfare responsibility place workingExp
id编号 公司名称 学历要求 工作类型 工作名称 薪资 发布时间 截止时间 城市编码 公司规模 福利 岗位职责 地区 工作经验

Mysql数据库:

用户名:root; 密码:123123

数据库名:mydb

城市编码表:province

列名 类型 非空 是否自增 介绍
city_code varchar(255) 城市编码
city_name varchar(255) 城市名称

HBase数据库:

最终结果表:job 列族:info

清洗规则:

  • 若某个属性为空则删除这条数据;

  • 处理数据中的salary

    1)mK-nK:(m+n)/2; 2)其余即为0

  • 按照MySQLprovince 将城市编码转化为城市名;

  • 将结果存入HBasejob中;

    </
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值