我的大数据之旅-Spark SQL DataFrame常用操作

最新推荐文章于 2024-01-25 14:30:54 发布

有一个码农，他叫封子

最新推荐文章于 2024-01-25 14:30:54 发布

阅读量166

点赞数

分类专栏： Spark 大数据文章标签： Spark SQL DataFrame

本文链接：https://blog.csdn.net/qq_27991405/article/details/102636824

版权

本文深入探讨了Spark SQL中的DataFrame操作，包括数据加载、转换、过滤和聚合等核心功能，帮助读者理解如何在大数据处理中高效使用DataFrame。

摘要由CSDN通过智能技术生成

package com.fengling.sql

import org.apache.spark.SparkConf
import org.apache.spark.sql.{DataFrame, SparkSession}
import org.slf4j.LoggerFactory

case class People(name: String, age: Int)

/**
  * @author fengchengliang@126.com
  * @date 2019-10-17
  */
object SparkSQLDemo {
  val logger = LoggerFactory.getLogger(SparkSQLDemo.getClass)

  def main(args: Array[String]): Unit = {
    val config = Map(
      "spark.cores" -> "local[*]"
    )
    val sparkConf = new SparkConf().setMaster(config("spark.cores")).setAppName("Spark SQL basic example")
    // 创建SparkContext并设置AppName
    val spark = SparkSession.builder()
      .config(sparkConf)
      .getOrCreate()

    // For implicit conversions like converting RDDs to DataFrames
    import spark.implicits._

    val rdd = spark.sparkContext.parallelize(List(People("张三",12),People("李四",18),People("王五",2