1.问题:
统计log数据,过滤不符合规则数据(未写薪资,格式不合要求)
- 统计年薪岗位占总岗位的比例?
- 统计各个省市的月平均薪资和岗位数量(薪资取最高,例如1-1.5万,取1.5万)?
- 统计薪资(薪资取最高,例如1-1.5万,取1.5万)超过2万的岗位数量
2.代码实现:
object Test01 {
def main(args: Array[String]): Unit = {
//去掉多余的log
Logger.getLogger("test").setLevel(Level.WARN)
//准备工作:创建对象,加载数据,创建虚拟表
val session: SparkSession = SparkSession.builder().appName("test").master("local[2]").getOrCreate()
val frame: DataFrame = session.read.format("csv").option("sep", "\t").load("data/log.txt").toDF("job", "company", "city", "sal", "date")
frame.createTempView("t")
//1. 统计年薪岗位占总岗位的比例:即:年薪岗位/总岗位
val sql1=
"""
|select
|(select count(1) from t where sal like "%年%")
|/(select count(1) from t) as rate
|""".stripMargin
println("第一题:")
session.sql(sql1).show()
//2.统计各个省市的月平均薪资和岗位数量(薪资取最高,例如1-1.5万,取1.5万)? 每个城市的月工资相加/人数
//数据:数据平台 - 大数据开发套件服务端高级工程师 字节跳动 北京 2-4万/月 11-22
val sql2_1= //2-1.下面那三个sql是:把万/年,千/月,万/月 都变成 万/月
"""
|select city,job,maxSal/12 as maxSal
|from
|(select city,job,substr(sal,instr(sal,"-")+1,instr(sal,"/")-instr(sal,"-")-2) as maxSal,substr(sal,instr(sal,"/")-1,1) as yuan,
|substr(sal,instr(sal,"/")+1) as date
|from t
|) t1
|where date like "%年%" and yuan like "%万%"
|""".stripMargin
val sql2_2=
"""
|select city,job,maxSal
|from
|(select city,job,substr(sal,instr(sal,"-")+1,instr(sal,"/")-instr(sal,"-")-2) as maxSal,substr(sal,instr(sal,"/")-1,1) as yuan,
|substr(sal,instr(sal,"/")+1) as date
|from t
|) t1
|where date like "%月%" and yuan like "%万%"
|""".stripMargin
val sql2_3=
"""
|select city,job,maxSal/1000 as maxSal
|from
|(select city,job,substr(sal,instr(sal,"-")+1,instr(sal,"/")-instr(sal,"-")-2) as maxSal,substr(sal,instr(sal,"/")-1,1) as yuan,
|substr(sal,instr(sal,"/")+1) as date
|from t
|) t1
|where date like "%月%" and yuan like "%千%"
|""".stripMargin
//2-2.union,再当成一张表,再按city分组即可求出结果
val frame1: DataFrame = session.sql(sql2_1).union(session.sql(sql2_2)).union(session.sql(sql2_3)).toDF("city", "job", "maxSal")
frame1.createTempView("t2")
val sql=
"""
|select city,count(job) job,floor(sum(maxSal)*1000) as avg_sal
|from t2
|group by city
|""".stripMargin
println("第二题:")
session.sql(sql).show() //一共54个city
//3. 统计薪资(薪资取最高,例如1-1.5万,取1.5万)超过2万的岗位数量
val sql3=
"""
|select count(1)
|from t2
|where maxSal>2
|""".stripMargin
println("第三题:")
session.sql(sql3).show()
}
}
3.数据Demo
数据平台 - 大数据开发套件服务端高级工程师 字节跳动 北京 2-4万/月 11-22
大数据工程师 北京中交兴路车联网科技有限公司 北京 1.5-3万/月 11-22
人工智能大数据销售经理 北京启迪数字科技集团有限公司 北京 15-25万/年 11-22
大数据分析师 兴业消费金融股份公司 上海 3.5-4万/月 11-22
大数据平台架构及分析岗位 湖南友道信息技术有限公司 长沙 0.6-1万/月 11-22
区域销售(大数据教育方向) 安徽七天教育科技有限公司 兴安盟 0.8-1万/月 11-22
大数据开发工程师 南京诚创财务咨询有限公司 南京 1-2万/月 11-22
高薪招Java大数据实习生 湖北众康空间体育产业孵化器有限公司 武汉 4.5-7.5千/月 11-22
大数据运维工程师 浙江航天恒嘉数据科技有限公司 嘉兴 10-20万/年 11-22
咨询助理(人力资源大数据方向) 广州锐库企业管理咨询有限公司 广州 6-8千/月 11-22
初级大数据工程师助理+提供住宿 郑州丽泰网络科技有限公司 郑州 4.5-6千/月 11-22
大数据开发工程师 中卫信软件 上海 2-2.5万/月 11-22
算法工程师/大数据处理 西安锦威电子科技有限公司 西安 0.6-1万/月 11-22