Spark学习（六）：Spark SQL二

最新推荐文章于 2023-11-23 10:25:56 发布

jiezou12138

最新推荐文章于 2023-11-23 10:25:56 发布

阅读量289

点赞数

分类专栏： Spark

本文链接：https://blog.csdn.net/jiezou12138/article/details/89036329

版权

本文详细介绍了Spark SQL中的数据读取、写出以及保存模式，涵盖了json、parquet、csv、JDBC和Hive等多种数据源。通过实例展示了如何操作这些数据源，包括从parquet文件和json文件读取数据，将数据写入csv格式，使用JDBC连接MySQL数据库，以及配置和使用Hive数据源。

摘要由CSDN通过智能技术生成

4.数据的read、write和savemode

4.数据的read、write和savemode

4.1 数据的读取

一些常见的数据源，parquet：是之前输出parquet文件的目录，读取该目录下的所有文件

student.json

{"name":"jack", "age":"22"}
{"name":"rose", "age":"21"}
{"name":"mike", "age":"19"}

product.csv

phone,5000,100
xiaomi,3000,300

val spark = SparkSession.builder()
  .master("local[*]")
  .appName(this.getClass.getSimpleName)
  .getOrCreate()

//方式一：
val jsonSource: DataFrame = spark.read.json("E:\\student.json")
val csvSource: DataFrame = spark.read.csv("e://product.csv")
val parquetSource: DataFrame = spark.read.parquet("E:/parquetOutput/*")

//方式二：
val jsonSource1: DataFrame = spark.read.format("json").load("E:\\student.json")
val csvSource1: DataFrame = spark.read.format("csv").load("e://product.csv")
val parquetSource1: DataFrame = spark.read.format("parquet").load("E:/parquetOutput/*")
//方式三：默认是paprquet格式
val df: DataFrame = spark.sqlContext.load("E:/parquetOutput/*")

4.2 数据的写出

//方式一：
jsonSource.write.json("./jsonOutput")
jsonSource.write.parquet("./parquetOutput")
jsonSource.write.csv("./scvOut")
//方式二：
jsonSource.write.format("json").save("./jsonOutput")
jsonSource.write.format("parquet").save("./parquetOutput")
jsonSource.write.format("csv").save("./scvOut")
//方式三：默认parquet格式
jsonSource.write.save("./parquetOutput")

4.3 数据保存的模式

result1.write.mode(SaveMode.Append).json("spark_day01/jsonOutput1")

最低0.47元/天解锁文章

jiezou12138

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Spark学习（六）：Spark SQL二

目录4.数据的read、write和savemode4.1 数据的读取4.2 数据的写出4.3 数据保存的模式5. Spark SQL数据源5.1数据源之json5.2 数据源之parquet5.3 数据源之csv5.4 数据源之JDBC5.5 数据源之hive4.数据的read、write和savemode4.1 数据的读取一些常见的数据源...
复制链接

扫一扫

专栏目录