DataFrameReader、DataFrameWrite、Spark整合Hive、JDBC

最新推荐文章于 2021-11-24 22:46:37 发布

简映

最新推荐文章于 2021-11-24 22:46:37 发布

阅读量1.1k

点赞数

分类专栏： Spark 文章标签： spark 大数据

本文链接：https://blog.csdn.net/funK_91/article/details/104829095

版权

本文介绍了Spark中DataFrameReader和DataFrameWriter的使用，包括Parquet和JSON格式的读写，以及如何整合SparkSQL与Hive的MetaStore。详细探讨了Hive的MetaStore运行模式和访问Hive表的方法。此外，还讲解了通过SparkSQL使用JDBC与MySQL交互的步骤。

摘要由CSDN通过智能技术生成

数据读写

初识 DataFrameReader

SparkSQL 的一个非常重要的目标就是完善数据读取, 所以 SparkSQL 中增加了一个新的框架, 专门用于读取外部数据源, 叫做 DataFrameReader

def reader1(): Unit = {
    // 1. 创建 SparkSession
    val spark = SparkSession.builder()
      .master("local[6]")
      .appName("reader1")
      .getOrCreate()

    // 2. 框架在哪
    val reader: DataFrameReader = spark.read
  }

DataFrameReader 由如下几个组件组成
在这里插入图片描述

DataFrameReader 两种访问方式

一种是使用 load 方法加载, 使用 format 指定加载格式
一种是使用封装方法, 类似 csv, json, jdbc 等.

def reader2(): Unit = {
    // 创建 SparkSession
    val spark = SparkSession.builder()
      .master("local[6]")
      .appName("reader2")
      .getOrCreate()

    //  第一种形式 load
    spark.read
      .format("csv")
      .option("header", value = true)
      .option("inferSchema", value = true)
      .load("dataset/BeijingPM20100101_20151231.csv")
      .show(10)

    //  第二种形式 csv 等封装方法
    spark.read
      .option("header", value = true)
      .option("inferSchema", value = true)
      .csv("dataset/BeijingPM20100101_20151231.csv")
      .show(10)
  }

但是其实这两种方式本质上一样, 因为类似 csv 这样的方式只是 load 的封装

e8af7d7e5ec256de27b2e40c8449a906

如果使用 load 方法加载数据, 但是没有指定 format 的话, 默认是按照 Parquet 文件格式读取

也就是说, SparkSQL 默认的读取格式是 Parquet

初识 DataFrameWriter

对于 ETL 来说, 数据保存和数据读取一样重要, 所以 SparkSQL 中增加了一个新的数据写入框架, 叫做 DataFrameWriter

val spark: SparkSession = ...

val df = spark.read
      .option("header", true)
      .csv("dataset/BeijingPM20100101_20151231.csv")

val writer: DataFrameWriter[Row] = df.write

DataFrameWriter 中由如下几个部分组成
在这里插入图片描述
mode 指定了写入模式, 例如覆盖原数据集, 或者向原数据集合中尾部添加等

DataFrameWriter 也有两种使用方式, 一种是使用 format 配合 save, 还有一种是使用封装方法, 例如 csv, json, saveAsTable 等

 def writer1(): Unit = {
    
    val df = spark.read.option("header", true).csv("dataset/BeijingPM20100101_20151231.csv")

    // 使用 json 保存，因为方法是 json，所以隐含的 format 是 json
    df.write.json("dataset/beijing_pm.json")

	// 使用 save 保存，使用 format 设置文件格式
    df.write.format("json").save("dataset/beijing_pm2.json")
  }

读写 Parquet 格式文件

什么时候会用到 Parquet ?

00a2a56f725d86b5c27463f109c43d8c
在 ETL 中, Spark 经常扮演 T 的职务, 也就是进行数据清洗和数据转换.

为了能够保存比较复杂的数据, 并且保证性能和压缩率, 通常使用 Parquet 是一个比较不错的选择.

所以外部系统收集过来的数据, 有可能会使用 Parquet, 而 Spark 进行读取和转换的时候, 就需要支持对 Parquet 格式的文件的支持.

使用代码读写 Parquet文件

默认不指定 format 的时候, 默认就是读写 Parquet 格式的文件

def parquet(): Unit = {
    // 1. 读取 CSV 文件的数据
    val df = spark.read
    .option("header", true)
    .csv("dataset/BeijingPM20100101_20151231.csv")

    // 2. 把数据写为 Parquet 格式
    // 写入的时候, 默认格式就是 parquet
    // 写入模式, 报错, 覆盖, 追加, 忽略
    df.write
      .mode(SaveMode.Overwrite)
      .save("dataset/beijing_pm3")

    // 3. 读取 Parquet 格式文件
    // 默认格式是否是 paruet? 是
    // 是否可能读取文件夹呢? 是
    spark.read
      .load("dataset/beijing_pm3")
      .show()
  }

写入 Parquet 的时候可以指定分区

Spark 在写入文件的时候是支持分区的, 可以像 Hive 一样设置某个列为分区列

def parquetPartitions(): Unit = {
    // 1. 读取数据
    val df = spark.read
      .option("header", value =

最低0.47元/天解锁文章

简映

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录