【无标题】

最新推荐文章于 2024-09-28 14:24:44 发布

Tom blibe

最新推荐文章于 2024-09-28 14:24:44 发布

阅读量294

点赞数 5

文章标签： spark

本文链接：https://blog.csdn.net/m0_64371480/article/details/139754730

版权

项目第十一天——学习Spark SQL相关知识

Spark SQL是一个用于结构化数据处理的Spark组件。所谓结构化数据，是指具有Schema信息的数据，例如JSON、Parquet、Avro、CSV格式的数据。与基础的Spark RDD API不同，Spark SQL提供了对结构化数据的查询和计算接口。
Spark SQL的主要特点：将SQL查询与Spark应用程序无缝组合，可以连接到多种数据源，在现有的数据仓库上运行SQL或HiveQL查询。
DataFrame是Spark SQL提供的一个编程抽象，与RDD类似，也是一个分布式的数据集合。但与RDD不同的是，DataFrame的数据都被组织到有名字的列中，就像关系型数据库中的表一样。
Spark Shell启动时除了默认创建一个名为sc的SparkContext的实例外，还创建了一个名为spark的SparkSession实例，该spark变量可以在Spark Shell中直接使用。
SparkSession只是在SparkContext基础上的封装，应用程序的入口仍然是SparkContext。SparkSession允许用户通过它调用DataFrame和Dataset相关API来编写Spark程序，支持从不同的数据源加载数据，并把数据转换成DataFrame，然后使用SQL语句来操作DataFrame数据。
Spark SQL内置了大量的函数，位YU 于API org.apache.spark.sql.functions中。其中大部分函数与Hive中的相同。使用内置函数有两种方式：一种是通过编程的方式使用；另一种是在SQL语句中使用。