使用sparkSql处理数据--离线数据(周考题)

1.问题:

统计log数据,过滤不符合规则数据(未写薪资,格式不合要求)

  1. 统计年薪岗位占总岗位的比例?
  2. 统计各个省市的月平均薪资和岗位数量(薪资取最高,例如1-1.5万,取1.5万)?
  3. 统计薪资(薪资取最高,例如1-1.5万,取1.5万)超过2万的岗位数量

2.代码实现:

object Test01 {
  def main(args: Array[String]): Unit = {
    //去掉多余的log
    Logger.getLogger("test").setLevel(Level.WARN)
    //准备工作:创建对象,加载数据,创建虚拟表
    val session: SparkSession = SparkSession.builder().appName("test").master("local[2]").getOrCreate()
    val frame: DataFrame = session.read.format("csv").option("sep", "\t").load("data/log.txt").toDF("job", "company", "city", "sal", "date")
    frame.createTempView("t")

    //1. 统计年薪岗位占总岗位的比例:即:年薪岗位/总岗位
    val sql1=
      """
        |select
        |(select count(1) from t where sal like "%年%")
        |/(select count(1)  from t) as rate
        |""".stripMargin
    println("第一题:")
   session.sql(sql1).show()

    //2.统计各个省市的月平均薪资和岗位数量(薪资取最高,例如1-1.5万,取1.5万)? 每个城市的月工资相加/人数
    //数据:数据平台 - 大数据开发套件服务端高级工程师	字节跳动	北京	2-4万/月	11-22
    val sql2_1=     //2-1.下面那三个sql是:把万/年,千/月,万/月 都变成 万/月
      """
        |select city,job,maxSal/12 as maxSal
        |from
        |(select city,job,substr(sal,instr(sal,"-")+1,instr(sal,"/")-instr(sal,"-")-2) as maxSal,substr(sal,instr(sal,"/")-1,1) as yuan,
        |substr(sal,instr(sal,"/")+1) as date
        |from t
        |) t1
        |where date like "%年%" and yuan like "%万%"
        |""".stripMargin

    val sql2_2=
      """
        |select city,job,maxSal
        |from
        |(select city,job,substr(sal,instr(sal,"-")+1,instr(sal,"/")-instr(sal,"-")-2) as maxSal,substr(sal,instr(sal,"/")-1,1) as yuan,
        |substr(sal,instr(sal,"/")+1) as date
        |from t
        |) t1
        |where date like "%月%" and yuan like "%万%"
        |""".stripMargin

    val sql2_3=
      """
        |select city,job,maxSal/1000 as maxSal
        |from
        |(select city,job,substr(sal,instr(sal,"-")+1,instr(sal,"/")-instr(sal,"-")-2) as maxSal,substr(sal,instr(sal,"/")-1,1) as yuan,
        |substr(sal,instr(sal,"/")+1) as date
        |from t
        |) t1
        |where date like "%月%" and yuan like "%千%"
        |""".stripMargin
    //2-2.union,再当成一张表,再按city分组即可求出结果
    val frame1: DataFrame = session.sql(sql2_1).union(session.sql(sql2_2)).union(session.sql(sql2_3)).toDF("city", "job", "maxSal")
    frame1.createTempView("t2")
    val sql=
      """
        |select city,count(job) job,floor(sum(maxSal)*1000) as avg_sal
        |from t2
        |group by city
        |""".stripMargin
    println("第二题:")
   session.sql(sql).show()  //一共54个city

    //3. 统计薪资(薪资取最高,例如1-1.5万,取1.5万)超过2万的岗位数量
    val sql3=
      """
        |select count(1)
        |from t2
        |where maxSal>2
        |""".stripMargin
    println("第三题:")
    session.sql(sql3).show()

  }

}

3.数据Demo

数据平台 - 大数据开发套件服务端高级工程师 字节跳动 北京 2-4万/月 11-22
大数据工程师 北京中交兴路车联网科技有限公司 北京 1.5-3万/月 11-22
人工智能大数据销售经理 北京启迪数字科技集团有限公司 北京 15-25万/年 11-22
大数据分析师 兴业消费金融股份公司 上海 3.5-4万/月 11-22
大数据平台架构及分析岗位 湖南友道信息技术有限公司 长沙 0.6-1万/月 11-22
区域销售(大数据教育方向) 安徽七天教育科技有限公司 兴安盟 0.8-1万/月 11-22
大数据开发工程师 南京诚创财务咨询有限公司 南京 1-2万/月 11-22
高薪招Java大数据实习生 湖北众康空间体育产业孵化器有限公司 武汉 4.5-7.5千/月 11-22
大数据运维工程师 浙江航天恒嘉数据科技有限公司 嘉兴 10-20万/年 11-22
咨询助理(人力资源大数据方向) 广州锐库企业管理咨询有限公司 广州 6-8千/月 11-22
初级大数据工程师助理+提供住宿 郑州丽泰网络科技有限公司 郑州 4.5-6千/月 11-22
大数据开发工程师 中卫信软件 上海 2-2.5万/月 11-22
算法工程师/大数据处理 西安锦威电子科技有限公司 西安 0.6-1万/月 11-22

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值