利用sparktool解决Spark SQL传参难题

最新推荐文章于 2023-07-01 09:59:21 发布

tenmg

最新推荐文章于 2023-07-01 09:59:21 发布

阅读量1.4k

点赞数

分类专栏：玩转Spark计算引擎

本文链接：https://blog.csdn.net/csdn779343484/article/details/113847964

版权

玩转Spark计算引擎专栏收录该内容

1 篇文章 0 订阅

订阅专栏

Sparktool是一个专为Spark程序设计的中间件，用于解决SparkSQL的参数传递问题。它提供了动态化和可传参的SparkSQL执行能力，简化了SQL拼接和逻辑判断。通过SparkDao接口，开发者可以方便地加载数据集或执行SQL。Sparktool可在GitHub和Maven中央仓库获取。

摘要由CSDN通过智能技术生成

一、Sparktool简介

Sparktool是运行Spark SQL的中间件，能够解决Spark SQL传参的难题。刚开始使用Spark时，发现分布式环境下传统的ORM框架无法正常使用，于是诞生了Sqltool；刚开始使用Spark SQL时，发现其不能像JDBC那样传参，于是sqltool的早期版本封装了SQL引擎以及相关的数据加载器。但是，Sqltool是一个通用的动态结构化查询语言（DSQL）解析和执行的框架，并非只能应用于Spark程序中。因此，分离专门应用于Spark程序之上的框架成为必然，Sparktool由此诞生。

二、Sparktool的用途

Sparktool的用途是运行动态化的、可传参的Spark SQL。所谓“可传参”即执行Spark SQL时可接收参数，而不是写死的SQL代码；所谓“动态化”即执行Spark SQL时最终执行的SQL可根据传入参数不同而不同（参见Sqltool的DSQL）。这样，Spark SQL传参的难题迎刃而解；同时，对于大多数情况而言，不再需要繁杂的逻辑判断和SQL拼接。

三、Sparktool使用示例

Sparktool通过SparkDao向外提供API服务，目前SparkDao只有一种实现即DSQLSparkDao构建，DSQLSparkDao需要指定DSQLFactory。sparkDao可以让Spark SQL迸发魔力：

// 构建SparkDao
SparkDao sparkDao = DSQLSparkDao.build(new XMLFileDSQLFactory(basePackages, suffix));

// 如果已经构建了Sqltool的Dao，构建SparkDao时可以重用DSQLFactory
SparkDao sparkDao = DSQLSparkDao.build(dao.getDSQLFactory());

// 使用SparkDao解析执行DSQL从数据库加载数据集
Dataset<Row> dataset1 = sparkDao.load(sparkSession, dbOptions, dsql, params);

// 使用SparkDao将带参数DSQL提交给Spark SQL执行
Dataset<Row> dataset2 = sparkDao.sql(sparkSession, dsql, params);