Spark 复杂数据结构数组的Udf用法

Method.Jiao

于 2019-11-15 13:39:17 发布

阅读量1k

点赞数 1

分类专栏：机器学习与深度学习文章标签： Spark udf

本文链接：https://blog.csdn.net/m0_38125278/article/details/103083753

版权

机器学习与深度学习专栏收录该内容

8 篇文章 0 订阅

订阅专栏

在spark2.4.4下UDF写法有两种(scala)

法一 sql拼接

    val sparkSession = SparkSession.builder()
      .appName("PKPMBimAnalyse")
      .config("spark.mongodb.input.uri", "mongodb://10.100.140.35/mydb.netflows")
      .master("local")
      .getOrCreate()

sparkSession.udf.register("TotalVolume",(HighPts: mutable.WrappedArray[GenericRow]) => {
      print(HighPts)
      HighPts.size
    })
var resultDataFrame = sparkSession.sql("select RootNode.ChildNode.HighPt,RootNode.ChildNode.LowPt,TotalVolume(RootNode.ChildNode.HighPt) from netflows")

主意sql中TotalVolume(RootNode.ChildNode.HighPt)，将register的udf函数引入

法二 select或withColumn函数叠加

    val totalVolume = udf((HighPts: mutable.WrappedArray[GenericRow]) => {
      print(HighPts)
      HighPts.size
    })

    var resultDataFrame = sparkSession.sql("select RootNode.ChildNode.HighPt,RootNode.ChildNode.LowPt from netflows")
    var testDataFrame =  resultDataFrame.withColumn("name_len", totalVolume(col("HighPt")))