Spark SQL数据源 - 基本操作

最新推荐文章于 2024-08-22 09:40:31 发布

HTTDBGG

最新推荐文章于 2024-08-22 09:40:31 发布

阅读量795

点赞数

文章标签： spark sql 数据库

本文链接：https://blog.csdn.net/lookqinghuaci/article/details/125315812

版权

一、基本操作
Spark SQL提供了两个常用的加载数据和写入数据的方法：load()方法和save()方法。load()方法可以加载外部数据源为一个DataFrame，save()方法可以将一个DataFrame写入指定的数据源。
二、默认数据源
（一）默认数据源Parquet
默认情况下，load()方法和save()方法只支持Parquet格式的文件，Parquet文件是以二进制方式存储数据的，因此不可以直接读取，文件中包括该文件的实际数据和Schema信息，也可以在配置文件中通过参数spark.sql.sources.default对默认文件格式进行更改。Spark SQL可以很容易地读取Parquet文件并将其数据转为DataFrame数据集。
（二）案例演示读取Parquet文件
将数据文件users.parquet上传到master虚拟机/home