SPARK SQL与关系代数

细雨南门外

已于 2023-11-14 20:10:19 修改

阅读量114

点赞数

文章标签： spark sql 数据库

于 2023-09-18 15:51:19 首次发布

本文链接：https://blog.csdn.net/qq_37527921/article/details/132982396

版权

本文介绍了关系代数的基本概念和操作，如选择、投影和连接等，以及它们在关系型数据库和SQL中的应用。此外，文章详细讨论了SparkSQL如何利用关系代数和SQL查询语言进行大规模数据处理，强调了DataFrame和DataSet在其中的作用。

摘要由CSDN通过智能技术生成

关系代数和关系型数据库是数据库管理领域的两个重要概念，它们密切相关并共同构成了关系数据库管理系统（RDBMS）的基础。以下是对这两个概念的介绍：

定义：关系型数据库是一种基于关系代数理论构建的数据库系统。它使用表格（关系）来组织数据，每个表格包含了一组具有定义的列，每一行表示一个记录或元组。关系数据库管理系统（RDBMS）是用于管理和查询关系型数据库的软件。
特点：
- 数据存储以表格的形式，每个表格有固定的列和数据类型。
- 数据之间的关系通过主键和外键来建立。
- 支持 ACID（原子性、一致性、隔离性、持久性）事务，确保数据的完整性和可靠性。
- 使用结构化查询语言（SQL）进行数据查询和操作。
应用：关系型数据库广泛用于各种应用领域，包括企业管理系统、电子商务、金融服务、医疗健康、科学研究等。一些著名的关系型数据库系统包括MySQL、Oracle Database、Microsoft SQL Server、PostgreSQL等。

总之，关系代数提供了一种操作和查询关系数据库的数学基础，而关系型数据库则是实际应用这些原理的数据库管理系统。关系数据库模型以其结构化和可靠性而闻名，是许多组织和应用程序的首选数据库解决方案

Apache Spark SQL与关系代数和关系型数据库之间存在密切的关联，因为它借鉴了关系代数的概念和SQL查询语言的结构，并提供了与关系型数据库类似的数据处理功能。以下是它们之间的关系：

关系代数的基础：
- Apache Spark SQL的核心是建立在关系代数的理论基础之上。关系代数是一种用于操作和查询关系型数据的数学模型，包括选择、投影、连接、并、差等操作。这些操作也是Spark SQL中的基本构建块，用于对数据进行转换和查询。
SQL查询语言：
- Spark SQL提供了结构化查询语言（SQL）的支持，允许用户使用SQL来查询和操作数据。SQL是一种强大的查询语言，最初用于关系型数据库，但现在在Spark中也得到了广泛应用。
- Spark SQL的SQL查询语法与关系型数据库中的SQL查询语法非常相似，因此具有关系型数据库经验的开发人员可以轻松迁移到Spark SQL中。
DataFrame和DataSet抽象：
- Spark SQL引入了DataFrame和DataSet这两个抽象，它们是分布式数据集的表示，类似于关系型数据库中的表。DataFrame和DataSet提供了强类型的数据操作和查询功能，允许开发人员以类似于SQL的方式处理数据。
- 这些抽象使得在Spark中进行数据操作更加直观和易于使用，同时允许Spark进行优化和分布式处理。

总的来说，Apache Spark SQL是一个强大的数据处理工具，它结合了关系代数的理论基础、SQL查询语言的直观性以及关系型数据库的概念，使开发人员能够在大规模分布式数据处理中进行数据操作和分析。

name	description
Project (projectList:Seq[NameExpression],child:LogicalPlan)	Select语句输出操作，其中projectList作为输出对象，每一个都为一个Expression，可能是Star或者复杂的Expression
Filter （condition:Expression,child:LogicalPlan）	根据condition对child输入的Rows进行过滤
Join (left:LogicalPlan,right:LogicalPlan, joinType:JoinType,condition[Expression])	left 和right的输出结果进行join操作
Intersect (left:LogicalPlan,right:LogicalPlan)	left和right两个Plan输出的rows进行取交集运算
Except （left:LogicalPlan,right:LogicalPlan）	left计算结果中剔除right中的计算结果
Union (children:Seq[LogicalPlan])	将一组Childs的计算结果进行Union联合
Sort (order:Seq[SortORder],global:Boolean,child:LogicalPlan)	对child的输出进行sort排序
Repartition (numPartitions:Int,shuffle:Boolean,child:LogicalPlan)	对child输出的数据进行重新分区操作
InsertIntoTable (table:LogicalPlan,child:LogicalPlan,……)	将child输出的rows输出到talbe中
Distinct （child:LogicalPlan）	对child输出的rows去重操作
GlobalLimit(limitExpr:Expression,child:LogicalPlan)	对child输出的数据进行limit限制
Sample （child：LogicalPlan，……）	根据参数，从child输出的rows进行一定的比例取样
Aggerate (groupingExpressions:Seq[Expression] aggerateExpressions:Seq[NamedExpression], child:LogicalPlan)	对child输出的row进行aggregate操作比如groupby