记一次利用spark sql 操作hive，求hive表正样本率

缘来又是你

于 2019-05-29 14:18:41 发布

阅读量144

点赞数 1

分类专栏：车联网文章标签： spark scala hive

本文链接：https://blog.csdn.net/u013170541/article/details/90669851

版权

本人是做java的，但是因为scala对spark的友好，所以因为好奇并且为了学习，再写代码之前还是决定使用scala来做

先贴核心的样本率处理

  /**
    * 正样本率多参递归处理
    * @param spark sparksession
    * @param sqlAllDF 主表（每次处理的结果数据）
    * @param tableName  目标表名
    * @param col  参数长度-1（标识 控制跳出递归）
    * @param plus  正负样本标识
    * @param column 类别字段(多个)
    * @return
    */
  def fac(spark:SparkSession,sqlAllDF:DataFrame
          ,tableName:String,col:Int,plus:String,column:Seq[String]): DataFrame ={

    import spark.sql

    if (column.length != 0 && col >= 0){
      val c = column(col)
      val sqlDF = sql(s"SELECT $c cs, sum($plus)/count(1) result from $tableName GROUP BY $c")
      val reDF = sqlAllDF.join(sqlDF, sqlAllDF(c) === sqlDF("cs"),"left")
      val df = reDF.withColumn(column(col),reDF(

最低0.47元/天解锁文章

缘来又是你

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
记一次利用spark sql 操作hive，求hive表正样本率

本人是做java的，但是因为scala对spark的友好，所以因为好奇并且为了学习，再写代码之前还是决定使用scala来做先贴核心的样本率处理 /** * 正样本率多参递归处理 * @param spark sparksession * @param sqlAllDF 主表（每次处理的结果数据） * @param tableName 目...
复制链接

扫一扫