Spark-SQL笔记二

操作Spark-SQL的两种方式:API和SQL

使用sparkSQL处理数据的“套路”:

  1. 读取数据,使用适当的分隔符,转为带列名的DataFrame。
  2. 将DF注册成临时表。
  3. 通过API或SQL方式清洗数据。
  4. 输出数据。
object LogApp {

  def main(args: Array[String]): Unit = {
    val spark = SparkSession.builder().master("local[2]").appName("LogApp").getOrCreate()
    import spark.implicits._   //添加这个才能在DF/DS上使用map等操作。
    val df = spark.read.textFile("data/access.log")
      .map(x => {
        val splits = x.split("\t")
        val user = splits(0)
        val platform = splits(1)
        val traffic = splits(4).toInt
        (user, platform, traffic)
      }).toDF("user", "platform", "traffic")   //DS转 DF
    // 如果你想使用SQL来进行处理,那么就是将df注册成一个临时视图
    df.createOrReplaceTempView("log")
    //使用sql的方式
    val sql = "select platform, user, sum(traffic) as traffics from log group by platform, user order by traffics desc"
    spark.sql(sql).show()
    //使用API的方式,必须导入下面这个包
    import org.apache.spark.sql.functions._
    df.groupBy("platform", "user")
      .agg(sum("traffic").as("traffics"))
        .sort('traffics.desc).show()
    spark.stop()
  }
}

Catalog的使用

spark2.0才有catalog,使用catalog操作Hive元数据。
作用:方便读取hive表元数据,不用连接JDBC

object CatalogApp {
  def main(args: Array[String]): Unit = {
    val spark = SparkSession.builder()
      .master("local[2]")
      .appName("CatalogApp")
      .enableHiveSupport() //连接到hive一定要开启这个
      .getOrCreate()

    //也可在spark-shell中执行以下语句
    val catalog = spark.catalog
    catalog.listDatabases().show(false)
    catalog.listFunctions().show(false)
    catalog.listTables("test_db").show(false)
    catalog.listColumns("test_db.test").show(false)

    spark.stop()
  }
}

DF ==> DS

RDD vs DataSet vs DataFrame ==> DF/DS = RDD + Schema

object DSApp {
  def main(args: Array[String]): Unit = {
    val spark = SparkSession.builder()
      .master("local")
      .appName("DSApp")
      .getOrCreate()

    import spark.implicits._
    val df = spark.read.option("header", "true") //这里如果在csv第一行有属性的话,没有就是"false"
      .option("inferSchema", "true")     //这是自动推断属性列的数据类型。
      //.option("sep", ",")   //指定分隔符,默认逗号
      .csv("data/sales.csv")
    df.printSchema()
    df.show()

    val ds = df.as[Sales]
    ds.printSchema()
    ds.show()
    // ROW  DF弱类型
    // RDD vs  DS  vs  DF   ==> DF/DS = RDD + Schema
    df.select("transactionId", "customerId").show(false)
    ds.select("transactionId", "amountPaid").show(false)
    ds.map(x=>(x.amountPaid,x.transactionId)).show(false) //map操作没有列信息。即没有Schema

    spark.stop()
  }

  case class Sales(transactionId: Int, customerId: Int, itemId: Int, amountPaid: Double)
}

DataFrame的两种创建方式

  1. 写case class
  2. 定义StructType
object RDDApp {
  def main(args: Array[String]): Unit = {
    val spark = SparkSession.builder()
      .master("local")
      .appName("RDDApp")
      .getOrCreate()
    import spark.implicits._

    // RDD ==> DF/DS
    //方式一:写case class
    val peopleDF = spark.sparkContext
      .textFile("data/people.txt")
      .map(_.split(","))
      .map(x => Person(x(0), x(1).trim.toInt))
      //.toDS()
      .toDF()

    peopleDF.show(false)

    //方式二:定义StructType
    // step1: Create an RDD
    val peopleRDD = spark.sparkContext.textFile("data/people.txt")
    // Convert records of the RDD (people) to Rows
    val rowRDD = peopleRDD
      .map(_.split(","))
      .map(attributes => Row(attributes(0), attributes(1).trim.toInt))

    // step2: The schema is encoded in a string
    val schema = StructType(Array(
      StructField("name2", StringType),
      StructField("age2", IntegerType)
    ))

    // step3: Apply the schema to the RDD
    val peopleDF2 = spark.createDataFrame(rowRDD, schema)

    peopleDF2.show()

    //TODO... 业务逻辑

    spark.stop()
  }
  case class Person(name: String, age: Int)
}

自定义UDF

object UDFApp {

  def main(args: Array[String]): Unit = {
    val spark = SparkSession.builder()
      .master("local")
      .appName("UDFApp")
      .getOrCreate()

    import spark.implicits._
    /**
      * step1: 定义 注册
      * step2: 使用
      */
    val df = spark.sparkContext.textFile("data/udf.txt")
      .map(_.split("\t"))
      .map(x => UDFtext(x(0), x(1), x(2).toInt))
      .toDF()
    df.createOrReplaceTempView("teams")

    /**
      * 根据年龄大小返回是否成年 成年:true,未成年:false
      */
    def Adult(age: Int) = {
      if (age < 18) {
        false
      } else {
        true
      }
    }

    val isAdult: UserDefinedFunction = spark.udf.register("isAdult2", Adult _) //注册自定义函数(通过实名函数)
    val teams_length: UserDefinedFunction = spark.udf.register("teams_length2", (input: String) => { //注册自定义函数(通过匿名函数)
      input.split(",").length
    })

    //通过sql方式调用UDF,只能使用定义在内部的函数名,如isAdult2、teams_length2
    spark.sql("select name, teams, age, teams_length2(teams) B, isAdult2(age) A from teams").show()


    //通过API方式调用UDF
    //通过withColumn添加列
    df.withColumn("A", isAdult(df.col("age")))
      .withColumn("B", teams_length(df.col("teams"))).show
    //通过select添加列
    df.select(df.col("*"),
      isAdult(df.col("age")).as("A"),
      teams_length(df.col("teams")) as "B").show
    //可通过withColumn实现增加一列或者替换一个已存在的列,它会先判断DataFrame里有没有这个列名,
    //如果有的话就会替换掉原来的列,没有的话就用调用select方法增加一列,所以如果我们的需求是增加一列的话,两者实现的功能一样,
    //且最终都是调用select方法,但是withColumn会提前做一些判断处理,所以withColumn的性能不如select好。

    spark.stop()
  }
  case class UDFtext(name: String, teams: String, age: Int)
}
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: Spark SQLSpark中用于处理结构化数据的模块。它提供了一种基于DataFrame和SQL的编程接口,可以方便地进行数据分析和处理。Spark SQL支持多种数据源,包括Hive、JSON、Parquet等,可以通过SQL语句或DataFrame API进行数据查询和操作。Spark SQL还支持用户自定义函数(UDF)和聚合函数(UDAF),可以满足更复杂的数据处理需求。Spark SQL的优势在于它可以与Spark的其他模块无缝集成,如Spark Streaming、MLlib等,可以构建完整的数据处理和分析流程。 ### 回答2: 本篇笔记主要是介绍Spark SQL的基本概念和编程模型。 Spark SQL是面向Spark计算引擎的一种高性能的分布式数据处理技术,它提供一种基本的高度抽象的编程模型,使得开发大规模的数据仓库和数据分析应用变得容易和高效。 Spark SQL最核心的概念就是DataFrames,DataFrame是RDD的超集,提供了更高层次的抽象和对数据的结构化的处理能力,在数据处理的过程中常常会用到一些基本的操作:过滤、选择、聚合、排序等等,而这些操作都可以一步一步地以DataFrame为基础完成。 在使用Spark SQL的过程中,可以通过DataFrame API和Spark SQL语言两种方式进行编程。DataFrame API是Spark SQL提供的一种编程API,它提供了常见的操作,如选择、过滤和聚合等。而Spark SQL语言则是一种基于SQL的编程语言,和传统的SQL查询语言类似,可以通过SQL查询语句来对数据进行查询和操作。Spark SQL可以支持多种数据源,包括JSON、Parquet、ORC、Hive、JDBC等等,因此可以轻松地读取和处理不同类型的数据源。 Spark SQL还提供了高级的功能,如User-Defined Functions(UDFs)、Window Functions和Structured Streaming等等。UDFs允许开发者自定义函数并在Spark SQL中使用,将SQL和代码结合起来,提高了处理数据的灵活性和可扩展性;Window Functions则是一种用来进行滑动窗口操作的函数,常常用于计算数据的局部或全局统计量;Structured Streaming提供了数据流处理的能力,并且实现了端到端的Exactly-Once语义。 总之,Spark SQL提供了很多的功能和便利,特别是在大数据处理和分析领域,它的优势尤为突出。结合Spark的强大计算能力和Spark SQL的抽象编程模型,在大规模的数据分析和仓库方面都具有非常高的可扩展性和灵活性。 ### 回答3: Spark SQLSpark生态系统中的一个组件,它负责处理结构化数据。它提供了SQL查询和DataFrame API,可以从不同的数据源中读取和处理数据。Spark SQL能够理解SQL语言,这使得开发人员可以使用传统的SQL查询方式来处理数据,同时还可以利用Spark的优势,例如分布式计算和内存缓存。 Spark SQL支持许多不同类型的数据源,包括Hive表、传统的RDD、Parquet文件、JSON文件、CSV文件和JDBC数据源等。Spark SQL可以通过使用数据源API将这些数据源加载到Spark中,然后可以在Spark中处理和查询这些数据。 Spark SQL还支持特定于数据源的优化器和执行引擎,这允许Spark SQL针对不同的数据源执行优化操作。例如,使用Hive数据源时,Spark SQL会使用Hive的元数据来优化查询计划。当使用Parquet文件格式时,Spark SQL会使用Parquet文件中的元数据来优化查询计划。 在Spark SQL中,DataFrame是一种非常重要的概念。它是一种强类型的分布式数据集,可以使用DataFrame API进行操作。DataFrame API是一种更面向数据的API,例如过滤数据、聚合数据等。Spark SQL中的DataFrame可以看作是类似于表的对象,它可以和Spark SQL中的SQL查询混合使用。 除了DataFrame API和SQL查询,Spark SQL还支持UDF(用户自定义函数)。UDF允许用户在SQL查询或DataFrame API中定义自己的函数,以实现更复杂的数据操作。使用UDF时,用户可以使用累加器和广播变量等Spark的分布式计算功能,使得UDF具备高性能和可伸缩性。 总之,Spark SQL是大数据处理领域中一种非常方便和强大的处理结构化数据的工具。它可以方便地与其他Spark组件结合使用,例如Spark Streaming、Spark MLlib等。使用Spark SQL,开发人员可以在不同的数据源之间轻松地查询和转换数据,并利用Spark分布式计算的优势,实现高性能和可伸缩性的数据处理。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值