Spark大数据处理讲课笔记4.2 Spark SQL数据源 - 基本操作

ting_tu_ran_de

于 2023-06-09 10:43:05 发布

阅读量446

点赞数

文章标签： spark 笔记 sql

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/ting_tu_ran_de/article/details/131121322

版权

一、基本操作
Spark SQL提供了两个常用的加载数据和写入数据的方法：load()方法和save()方法。load()方法可以加载外部数据源为一个DataFrame，save()方法可以将一个DataFrame写入指定的数据源。
二、默认数据源
（一）默认数据源Parquet
默认情况下，load()方法和save()方法只支持Parquet格式的文件，Parquet文件是以二进制方式存储数据的，因此不可以直接读取，文件中包括该文件的实际数据和Schema信息，也可以在配置文件中通过参数spark.sql.sources.default对默认文件格式进行更改。Spark SQL可以很容易地读取Parquet文件并将其数据转为DataFrame数据集。
（二）案例演示读取Parquet文件
执行命令： cd $SPARK_HOME/examples/src/main/resources，查看Spark的样例数据文件users.parquet

用cat命令显示users.parquet文件内容，只会显示乱码

将数据文件users.parquet上传到HDFS的/datasource/input目录

1、在Spark Shell中演示
启动Spark Shell，执行命令：spark-shell --master spark://master:7077

执行命令：val userdf = spark.read.load("hdfs://master:9000/datasource/input/users.parquet")

执行命令：userdf.show，查看数据帧内容

执行命令：userdf.printSchema，查看数据帧模式

执行命令：userdf.select("name", "favorite_color").write.save("hdfs://master:9000/datasource/output")

最低0.47元/天解锁文章

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
Spark大数据处理讲课笔记4.2 Spark SQL数据源 - 基本操作

执行命令：peopleDF.select("name", "age").write.format("parquet").save("hdfs://master:9000/datasource/output4") （注意：format("parquet")其实可以省掉的）导入SaveMode类，执行命令：peopledf.select("name").write.mode(SaveMode.Overwrite).format("json").save("hdfs://master:9000/result")
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。