SparkSQL 实现UDF的两种方式

最新推荐文章于 2024-03-24 14:34:12 发布

bigdataCoding

最新推荐文章于 2024-03-24 14:34:12 发布

阅读量4.5k

点赞数

分类专栏： Spark 大数据文章标签： Spark 大数据

本文链接：https://blog.csdn.net/UnionIBM/article/details/52516723

版权

本文探讨了在Spark SQL中创建UDF的两种方法：一种是通过反射推断schema，需要定义样本类；另一种是编程方式，使用StructType和StructField API。了解这些对于掌握Spark程序执行流程和学习Spark ML Pipeline至关重要。

摘要由CSDN通过智能技术生成

import org.apache.spark.{SparkConf, SparkContext}
import org.apache.spark.sql.SQLContext
import org.apache.spark.sql.functions._

/**
  
  */
object sparkDataframe {


  def main(args: Array[String]): Unit = {


    val conf = new SparkConf().setMaster("local[*]").setAppName("anti_Join")

    val sqlcontext = new SQLContext(new SparkContext(conf))

    import sqlcontext.implicits._

    val scoreDF = Seq((1,