Spark SQL的分布式SQL引擎

最新推荐文章于 2022-08-23 16:19:44 发布

大数据技术与数仓

最新推荐文章于 2022-08-23 16:19:44 发布

阅读量619

点赞数

分类专栏： Spark SQL 文章标签： Spark SQL

本文链接：https://blog.csdn.net/jmx_bigdata/article/details/88571873

版权

本文介绍了Spark SQL作为分布式查询引擎的使用，包括通过Thrift JDBC/ODBC server进行编程交互和使用Spark SQL CLI执行SQL查询。Thrift JDBC/ODBC server允许通过Java JDBC或beeline工具连接，启动服务并在localhost:10000监听，支持HTTP模式。Spark SQL CLI则提供命令行工具执行本地Hive Metastore服务的查询。

摘要由CSDN通过智能技术生成

一、简介

二、使用Thrift JDBC/ODBC server

2.1概述

2.2使用案例

三、使用Spark SQL cli

一、简介

Spark SQL可以使用其JDBC / ODBC或命令行界面充当分布式查询引擎。在此模式下，终端用户或应用程序可以直接与Spark SQL交互以运行SQL查询，而无需编写任何代码。主要有两种方式，一种是Thrift JDBC/ODBC,另一种是Spark SQL命令行终端。

二、使用Thrift JDBC/ODBC server

2.1概述

Spark SQL的Thrift JDBC/ODBC server是基于Hive 1.2.1的HiveServer2实现的(注意：在spark1.5.1及其之后的版本是基于Hive1.2.1的，在spark1.5.0和其之前的版本中是基于Hive0.13的)。这个服务启动之后，最主要的功能就是可以让我们通过
Java JDBC来以编程的方式调用Spark SQL。此外，在启动该服务之后，可以通过Spark或Hive 1.2.1自带的beeline工具来进行测试。

执行Spark的sbin目录下的start-thriftserver.sh命令，即可启动JDBC/ODBC server。start-thriftserver.sh命令可以接收所有spark-submit命令可以接收的参数，额外增加的一个参数是--hiveconf，可以用于指定一些Hive的配置属性。可以通过行./sbin/start-thr