Spark学习(六):Spark SQL二

本文详细介绍了Spark SQL中的数据读取、写出以及保存模式,涵盖了json、parquet、csv、JDBC和Hive等多种数据源。通过实例展示了如何操作这些数据源,包括从parquet文件和json文件读取数据,将数据写入csv格式,使用JDBC连接MySQL数据库,以及配置和使用Hive数据源。
摘要由CSDN通过智能技术生成

目录

4.数据的read、write和savemode

4.1 数据的读取

4.2 数据的写出

4.3  数据保存的模式

5. Spark SQL数据源

5.1 数据源之json

5.2 数据源之parquet

5.3 数据源之csv

5.4 数据源之JDBC

5.5 数据源之hive


4.数据的read、write和savemode

4.1 数据的读取

一些常见的数据源,parquet:是之前输出parquet文件的目录,读取该目录下的所有文件

student.json

{"name":"jack", "age":"22"}
{"name":"rose", "age":"21"}
{"name":"mike", "age":"19"}

 product.csv

phone,5000,100
xiaomi,3000,300

val spark = SparkSession.builder()
  .master("local[*]")
  .appName(this.getClass.getSimpleName)
  .getOrCreate()

//方式一:
val jsonSource: DataFrame = spark.read.json("E:\\student.json")
val csvSource: DataFrame = spark.read.csv("e://product.csv")
val parquetSource: DataFrame = spark.read.parquet("E:/parquetOutput/*")

//方式二:
val jsonSource1: DataFrame = spark.read.format("json").load("E:\\student.json")
val csvSource1: DataFrame = spark.read.format("csv").load("e://product.csv")
val parquetSource1: DataFrame = spark.read.format("parquet").load("E:/parquetOutput/*")
//方式三:默认是paprquet格式
val df: DataFrame = spark.sqlContext.load("E:/parquetOutput/*")

4.2 数据的写出

//方式一:
jsonSource.write.json("./jsonOutput")
jsonSource.write.parquet("./parquetOutput")
jsonSource.write.csv("./scvOut")
//方式二:
jsonSource.write.format("json").save("./jsonOutput")
jsonSource.write.format("parquet").save("./parquetOutput")
jsonSource.write.format("csv").save("./scvOut")
//方式三:默认parquet格式
jsonSource.write.save("./parquetOutput")

4.3  数据保存的模式

result1.write.mode(SaveMode.Append).json("spark_day01/jsonOutput1")
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值