爬取招聘网站数据分析数据,可视化,flume,hive,sqoop,mysql

一、爬取数据
①qiancheng.py
在这里插入图片描述
②pipelines.py
在这里插入图片描述
③sitting
在这里插入图片描述
④items
在这里插入图片描述

二、数据储存
1、把MongoDB数据导出为csv文件
在E:\MongoDB\bin下cmd

mongoexport.exe  --csv -f _id,name,salary,gongsi,didian,jingyan,xueli,neirong,jineng -d qiancheng -c Table -o  Test.csv

在这里插入图片描述
在这里插入图片描述
2、上传数据
在这里插入图片描述
3、利用flume收集日志
(1)创建agent-hdfs.conf文件

vi agent-hdfs.conf

(2)配置agent-hdfs.conf文件
在这里插入图片描述
(3)查看日志
在这里执行目录下执行命令
在这里插入图片描述

 ./bin/flume-ng agent --conf ./conf/ --name a2 --conf-file ./conf/agent_hdfs.conf -Dflume.root.logger=DEBUG,console

在这里插入图片描述
在这里插入图片描述

三、数据分析
1、导入数据
(1)创建数据库
在这里插入图片描述
(2)创建表
在这里插入图片描述
(3)导入数据到t_data表中
(4)查看数据

select * from t_data;

在这里插入图片描述
2、岗位薪资分析
(1)数据分析岗位
①模糊匹配:条件为数据分析、万/月,提取name和salary字段存入sjfx1表中

create table sjfx1 as select name, salary from t_data where name like '%数据分析%' and salary like '%万/月%';

查看sjfx1中是否有数据
select * from sjfx1 limit 10;
在这里插入图片描述
②分割薪资,求出每个岗位的最高、最低、平均工资

create table sjfx2 as select name, regexp_extract(salary,'([0-9]+)-',1) as salary1_min, regexp_extract(salary,'-([0-9]+)',1) as salary1_max, (regexp_extract(salary,'([0-9]+)-',1) + regexp_extract(salary,'-([0-9]+)',1))/2 as salary1_avg from sjfx1;

查看sjfx2中是否有数据

select * from sjfx2 limit 10;

在这里插入图片描述
③计算所有数据分析岗位的最大 、最小、平均工资

create table sjfx_s as select "数据分析" as name, min(int(salary1_min)) as salary1_min, max(int(salary1_max)) as salary1_max, regexp_extract(avg(salary1_avg),'([0-9]+.[0-9]?[0-9]?)',1) as salary1_avg from sjfx2;

查看sjfx_s表中数据
在这里插入图片描述
(2)大数据开发工程师
①模糊匹配:条件为大数据开发工程师、万/月,提取name和salary字段存入kfgc1表中

create table kfgc1 as select name, salary from t_data where name like '%大数据开发%' and salary like '%万/月%'; 

查看kfgc1中是否有数据

select * from kfgc1 limit 10;

在这里插入图片描述
②分割薪资,求出每个岗位的最高、最低、平均工资


create table kfgc2 as select name, regexp_extract(salary,'([0-9]+)-',1) as salary2_min, regexp_extract(salary,'-([0-9]+)',1) as salary2_max, (regexp_extract
  • 1
    点赞
  • 31
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值