SPARKSQL入门示例

该代码示例展示了如何使用SparkSQL进行数据处理,包括创建SparkSession,读取CSV文件为DataFrame,转换列名,打印Schema,过滤数据,计算平均值,以及使用SQL查询。示例还涉及了DataFrame的groupBy和agg函数,以及创建临时视图进行原生SQL查询。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

package cn.doitedu.sparksql.demos

import org.apache.spark.SparkContext
import org.apache.spark.sql.{DataFrame, Dataset, Row, SQLContext, SparkSession}

object C01_SPARKSQL入门示例 {
  def main(args: Array[String]): Unit = {

    // sqlContext  sparkContext
    val spark: SparkSession = SparkSession.builder()
      .appName("C01_SPARKSQL入门示例")
      .master("local")
      .getOrCreate()

    // 可以从sparksession中取到sparkContext
    val sc: SparkContext = spark.sparkContext
    // 可以从sparksession中取到sqlContext
    val sqlContext: SQLContext = spark.sqlContext

    // 在新版中,不需要将sparkContext和SqlContext割裂使用,而是统一使用sparksession来构建计算逻辑即可

    // 加载源数据文件为dataframe
    val df1: Dataset[Row] = spark.read.csv("data/battel.txt")
    val df2: DataFrame = df1.toDF("id", "name", "role", "energy")
    // 查看df的schema信息
    df2.printSchema()
    /**
     * root
        |-- id: string (nullable = true)
        |-- name: string (nullable = true)
        |-- role: string (nullable = true)
        |-- energy: string (nullable = true)
     */

    // 查看df的数据和schema信息
    df2.show()

    /**
     * 用调API的风格表达sql逻辑
     */
    // 查询所有战斗力大于 400的记录
    val res1: DataFrame = df2.where("energy > 400")
    res1.show()

    // 查询每一种角色的平均战斗力
    val res2: DataFrame = df2.groupBy("role").agg("energy" -> "avg")
    res2.show()


    /**
     * 原汁原味的写sql
     */
    df2.createTempView("battel")   // 注册一个临时表(视图)名
    spark.sql(
      """
        |
        |select
        |  role,
        |  avg(energy) as avg_energy
        |from battel
        |where energy >= 400
        |group by role
        |
        |""".stripMargin).show()

    spark.close()
  }
}

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值