8.2 Spark外部数据源

Apache Parquet 开荒

Apache Parquet

Parquet 是 Hadoop 生态圈中主流的列式存储格式,最早是由 Twitter 和 Cloudera 合作开发,2015 年 5 月从 Apache 孵化器里毕业成为 Apache 顶级项目。

有这样一句话流传: HDFS 是大数据时代文件系统的事实标准,Parquet 就是大数据时代存储格式的事实标准。

Parquet与语言 框架无关

Parquet 是与语言无关的,而且不与任何一种数据处理框架绑定在一起,适配多种语言和组件,能够与 Parquet 适配的查询引擎包括 Hive, Impala, Pig, Presto, Drill, Tajo, HAWQ, IBM Big SQL等,计算框架包括 MapReduce, Spark, Cascading, Crunch, Scalding, Kite 等,数据模型包括 Avro, Thrift, Protocol Buffer, POJOs 等。

Parquet文件格式
在这里插入图片描述
Parquet文件的每个文件块负责存储一个行组, 行组 由列块组成 ,一个列块负责存储一列数据,每个列块数据以页为单位

Parquet的原子类型
在这里插入图片描述
Parquet的逻辑类型

在这里插入图片描述

Data Sources

Spark Data Sources

SparkSQL 提供了通用的API去读不同格式的数据,默认保存为Parquet格式

1 通用的加载和保存方式

在这里插入图片描述

1.1 加载数据

scala> spark.read.format("…")[.option("…")].load("…")
  • format("…"):指定加载数据的类型,包括"csv"、“jdbc”、“json”、“orc”、“parquet"和"textFile”。
  • load("…"):在"csv"、“jdbc”、“json”、“orc”、"parquet"和"textFile"格式下需要传入加载数据的路径
  • option("…"):在"jdbc"格式下需要传入JDBC相应参数,url、user、password和dbtable
    我们前面都是使用read API 先把文件加载到 DataFrame然后再查询,其实,我们也可以直接在文件上进行查询: 文件格式.文件路径
scala>spark.sql("select * from json.`/opt/module/data/user.json`").show

1.2 保存数据

2 读取文件实例

2.1 Json

JavaScript Object Notation

    /*
    * 1 JSON
    * */
    import spark.implicits._
    //读取数据
    val JSON = spark.read.json("D:\\workplace\\ifeng-Spark\\ifeng-Spark-core\\data\\employees.json")
    //创建临时表
    val JsonView = JSON.createOrReplaceTempView("emp")
    //查询数据
    spark.sql("select name from emp where salary > 3500").show()
2.2 Parquet

Spark SQL的默认数据源为Parquet 格式,Parquet是一种有效存储列式格式

数据源为Parquet文件时,不需要使用format

    /*
    * 2 Parquet
    * SparkSQL 默认的数据源格式,Parquet是一种能够有效存储嵌套数据 的列存储格式
    * 数据源为Parquet时,不需要使用format
    * */
    //读取Parquet
    val ParquetRDD = spark.read.load("D:\\workplace\\ifeng-Spark\\ifeng-Spark-core\\data\\users.parquet")
    // careteOrRepalceTempView
    val ViewParquet = ParquetRDD.createOrReplaceTempView("color")
    // 
    spark.sql("select * from color").show()
2.3 CSV

Spark SQL 可以配置CSV文件的列表信息,读取CSV文件第一行设置为数据列

    /*
    *  3 CSV
    *
    * */
    val CSVRDD = spark.read.format("csv")
      .option("sep", ";") //指定分隔符
      .option("inferSchema",true) //推测数据的类型,时间字段等
      .option("header", true) //保留头信息
      .load("D:\\workplace\\ifeng-Spark\\ifeng-Spark-core\\data\\people.csv")

//    CSVRDD.show()

对于inferSchema的stackoverflow

2.4 MySQL

方式1:通用的load方法读取

    //方式1:通用的load方法读取
    val MySQLRDD1 = spark.read.format("jdbc")
      .option("url", "jdbc:mysql://10.103.66.88:3306/lenovosbom")
      .option("driver", "com.mysql.jdbc.Driver")
      .option("user", "xingwj1")
      .option("password", "xingwj1")
      //.option("dbtable", "ec")
      .option("query", "select * from ec")
      .load()

方式2:load方式 配置集中放置在一起

//
    val mySQLRDD2 = spark.read.format("jdbc")
      .options(Map("url" -> "jdbc:mysql://10.103.66.88:3306/lenovosbom?user=xingwj1&password=xingwj1",
            "dbtable" -> "user", "driver" -> "com.mysql.jdbc.Driver","dbtable" -> "ec")).load().show

方式3:JDBC方式获取

    //方式3:JDBC方式获取
        val props: Properties = new Properties()
        props.setProperty("user", "xingwj1")
        props.setProperty("password", "xingwj1")
        val df: DataFrame = spark.read.jdbc("jdbc:mysql://10.103.66.88:3306/lenovosbom", "ec", props)
        df.show


保存数据

// Saving data to a JDBC source
MySQLRDD.write
  .format("jdbc")
  .option("url", "jdbc:postgresql:dbserver")
  .option("dbtable", "schema.tablename")
  .option("user", "username")
  .option("password", "password")
  .save()

2.5 Hive

Spark SQL

  1. 导入依赖
<dependency>
    <groupId>org.apache.spark</groupId>
    <artifactId>spark-hive_2.12</artifactId>
    <version>${spark.version}</version>
</dependency>

<dependency>
    <groupId>org.apache.hive</groupId>
    <artifactId>hive-exec</artifactId>
    <version>3.1.2</version>
</dependency>

    val spark: SparkSession = SparkSession.builder().master("local[*]").getOrCreate()

    spark.sql("show databases").show()
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

oifengo

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值