Spark: DataFrame与Dataset

最新推荐文章于 2024-07-18 06:25:49 发布

mu_kui

最新推荐文章于 2024-07-18 06:25:49 发布

阅读量347

点赞数

文章标签： spark big data hive

本文链接：https://blog.csdn.net/mu_kui/article/details/125353086

版权

本文详细介绍了Spark SQL的主要特点，包括与Spark应用程序的无缝结合、连接多种数据源以及在现有数据仓库上运行SQL查询。同时，文章深入讨论了DataFrame和Dataset的概念，以及它们在Spark SQL中的使用。通过实例展示了如何加载、操作和查询DataFrame和Dataset，包括创建临时视图进行SQL查询，从而提供了一种高效处理结构化数据的方法。

摘要由CSDN通过智能技术生成

提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档

文章目录

一、Spark SQL

（一）Spark SQL概述

Spark SQL是一个用于结构化数据处理的Spark组件。所谓结构化数据，是指具有Schema信息的数据，例如JSON、Parquet、Avro、CSV格式的数据。与基础的Spark RDD API不同，Spark SQL提供了对结构化数据的查询和计算接口。

（二）Spark SQL主要特点

1、将SQL查询与Spark应用程序无缝组合

Spark SQL允许使用SQL或熟悉的DataFrame API在Spark程序中查询结构化数据。与Hive不同的是，Hive是将SQL翻译成MapReduce作业，底层是基于MapReduce的；而Spark SQL底层使用的是Spark RDD。
在Spark应用程序中嵌入SQL语句’

val res = spark.sql( “SELECT * FROM student”)

2、Spark SQL以相同方式连接多种数据源

Spark SQL提供了访问各种数据源的通用方法，数据源包括Hive、Avro、Parquet、ORC、JSON、JDBC等。
读取HDFS中的JSON文件，基于文件内容创建临时视图，最后与其他表根据指定的字段关联查询

// 读取JSON文件
val userScoreDF = spark.read.json("hdfs://master:9000/users.json")
// 创建临时视图user_score
userScoreDF.createTempView("user_score")
// 根据name关联查询
val resDF = spark.sql("SELECT i.age, i.name, c.score FROM user_info i INNER JOIN user_score c ON i.name = c.name")

3、在现有数据仓库上运行SQL或HiveQL查询

Spark SQL支持HiveQL语法以及Hive SerDes和UDF（用户自定义函数），允许访问现有的Hive仓库。

二、数据帧 - DataFrame

（一）DataFrame概述

DataFrame是Spark SQL提供的一个编程抽象，与RDD类似，也是一个分布式的数据集合，但与RDD不同，DataFrame的数据都被组织到有名字的列中，就像关系型数据库中的表一样。此外，多种数据都可以转化为DataFrame，例如Spark计算过程中生成的RDD、结构化数据文件、Hive中的表、外部数据库等。

三、数据集 - Dataset

（一）Dataset概述

Dataset是一个分布式数据集，是Spark 1.6中添加的一个新的API。相对于RDD，Dataset提供了强类型支持，在RDD的每行数据加了类型约束。而且使用Dataset API同样会经过Spark SQL优化器的优化，从而提高程序执行效率。

（二）DataFrame与Dataset的关系

在Spark中，一个DataFrame所代表的是一个元素类型为Row的Dataset，即DataFrame只是Dataset[Row]的一个类型别名。

四、简单使用Spark SQL

（一）了解SparkSession

Spark Shell启动时除了默认创建一个名为sc的SparkContext的实例外，还创建了一个名为spark的SparkSession实例，该spark变量可以在Spark Shell中直接使用。
从Spark2.0以上版本开始, Spark使用全新的SparkSession接口替代Spark1.6中的SQLContext及HiveContext接口来实现其对数据加载、转换、处理等功能。SparkSession实现了SQLContext及HiveContext所有功能。
SparkSession只是在SparkContext基础上的封装，应用程序的入口仍然是SparkContext。SparkSession允许用户通过它调用DataFrame和Dataset相关API来编写Spark程序，支持从不同的数据源加载数据，并把数据转换成DataFrame，然后使用SQL语句来操作DataFrame数据。