Spark学习（七）---编程操作SparkSQL和关系型数据库读写

最新推荐文章于 2024-04-30 22:35:32 发布

xipenfei

最新推荐文章于 2024-04-30 22:35:32 发布

阅读量2.2k

点赞数 1

分类专栏：大数据 Spark 文章标签： spark 大数据 DataFrema

本文链接：https://blog.csdn.net/weixin_42229056/article/details/83240178

版权

这次我们介绍以编程的方式进行sparkSQL的查询和关系型数据库读写，主要有

通过反射推断Schema
通过StructType指定Schema
使用SparkSQL编程操作HiveQL
SparkSQL读取数据库文件
Spark向关系数据库写入

1. 编程操作SparkSQL

前面我们学习了如何在Spark Shell中使用SQL完成查询，现在我们通过IDEA编写Spark SQL查询程序。
Spark官网提供了两种方法来实现从RDD转换得到DataFrame，

第一种方法是利用反射机制，推导包含某种类型的RDD，通过反射将其转换为指定类型的DataFrame，适用于提前知道RDD的schema。
第二种方法通过编程接口与RDD进行交互获取schema，并动态创建DataFrame，在运行时决定列及其类型。

编程演示

导入pom依赖

<dependency>
    <groupId>org.apache.spark</groupId>
    <artifactId>spark-sql_2.11</artifactId>
    <version>2.0.2</version>
</dependency>

1.1 通过反射推断Schema

Scala支持使用case class类型导入RDD转换为DataFrame，通过case class创建schema，case class的参数名称会被利用反射机制作为列名。这种RDD可以高效的转换为DataFrame并注册为表。

import org.apache.spark.SparkContext
import org.apache.spark.rdd.RDD
import org.apache.spark.sql.{DataFrame, SparkSession}

/**
  * RDD转化成DataFrame:利用反射机制
  */
//todo:定义一个样例类Person
case class Person(id:Int,name:String,age:Int) 

object CaseClassSchema {

  def main(args: Array[String]): Unit = {
      //todo：1、构建sparkSession 指定appName和master的地址
    val spark: SparkSession = SparkSession.builder()
                              .appName("CaseClassSchema")
                              .master("local[2]").getOrCreate()
      //todo:2、从sparkSession获取sparkContext对象
      val sc: SparkContext = spark.sparkContext
      sc.setLogLevel("WARN")//设置日志输出级别
      //todo:3、加载数据
      val dataRDD: RDD[String] = sc.textFile("D:\\person.txt")
      //todo:4、切分每一行记录
      val lineArrayRDD: RDD[Array[String]] = dataRDD.map(_.split(" "))
      //todo:5、将RDD与Person类关联
      val personRDD: RDD[Person] = lineArrayRDD.map(x=>Person(x(0).toInt,x(1),x(2).toInt))
      //todo:6、创建dataFrame,需要导入隐式转换
      import spark.implicits._
      val personDF: DataFrame = personRDD.toDF()

    //todo-------------------DSL语法操作 start--------------
    //1、显示DataFrame的数据，默认显示20行
    personDF.show()
    //2

最低0.47元/天解锁文章

xipenfei

关注

1
点赞
踩
7

收藏

觉得还不错? 一键收藏
1
评论
Spark学习（七）---编程操作SparkSQL和关系型数据库读写

这次我们介绍以编程的方式进行sparkSQL的查询和关系型数据库读写，主要有通过反射推断Schema通过StructType指定Schema使用SparkSQL编程操作HiveQLSparkSQL读取数据库文件Spark向关系数据库写入1. 编程操作SparkSQL前面我们学习了如何在Spark Shell中使用SQL完成查询，现在我们通过IDEA编写Spark SQL查询程序...
复制链接

扫一扫

专栏目录