理解Spark中SparkSQL模块DataSource使用

最新推荐文章于 2023-02-18 08:17:35 发布

杨鑫newlfe

最新推荐文章于 2023-02-18 08:17:35 发布

阅读量1k

点赞数

分类专栏： Scala 大数据挖掘与大数据应用案例文章标签： Spark SparkSQL DataSources

本文链接：https://blog.csdn.net/u012965373/article/details/89713236

版权

大数据挖掘与大数据应用案例同时被 2 个专栏收录

536 篇文章 1681 订阅 ¥9.90 ¥99.00

订阅专栏

Scala

108 篇文章 5 订阅

订阅专栏

本文深入探讨了Spark SQL中的DataFrame接口如何与各种数据源交互，包括默认数据源、手动指定选项加载数据、直接运行SQL查询文件、保存模式、持久化表以及分桶、排序和分区。内容涵盖了从JSON、CSV、ORC/Parquet等格式的加载，到使用SaveMode处理现有数据，以及如何使用saveAsTable命令创建持久化的Hive Metastore表。

摘要由CSDN通过智能技术生成

Spark SQL支持通过DataFrame接口对各种数据源进行操作。 DataFrame可以使用关系转换进行操作，也可以用于创建临时视图。将DataFrame注册为临时视图允许您对其数据运行SQL查询。本节介绍使用Spark数据源加载和保存数据的一般方法，然后介绍可用于内置数据源的特定选项。

1.Generic Load/Save Functions

在最简单的形式中，默认数据源（parquet除非另外由spark.sql.sources.default配置）将用于所有操作。

val userDF = spark.read.load("examples/src/main/resources/users.parquet")

usersDF.select("name", "favorite_color").write.save("namesAndFavColors.parquet”)

1.1.Manually Specifying Options

可以手动指定将要使用的数据源以及要传递给数据源的任何其他选项。数据源由其完全限定名称（即org.apache.spark.sql.parquet）指定，

但对于内置源，可以使用其短名称（json，parquet，jdbc，orc，libsvm

了解本专栏