目录
一、简介
Spark SQL可以使用其JDBC / ODBC或命令行界面充当分布式查询引擎。在此模式下,终端用户或应用程序可以直接与Spark SQL交互以运行SQL查询,而无需编写任何代码。主要有两种方式,一种是Thrift JDBC/ODBC,另一种是Spark SQL命令行终端。
二、使用Thrift JDBC/ODBC server
2.1概述
Spark SQL的Thrift JDBC/ODBC server是基于Hive 1.2.1的HiveServer2实现的(注意:在spark1.5.1及其之后的版本是基于Hive1.2.1的,在spark1.5.0和其之前的版本中是基于Hive0.13的)。这个服务启动之后,最主要的功能就是可以让我们通过
Java JDBC来以编程的方式调用Spark SQL。此外,在启动该服务之后,可以通过Spark或Hive 1.2.1自带的beeline工具来进行测试。
执行Spark的sbin目录下的start-thriftserver.sh命令,即可启动JDBC/ODBC server。start-thriftserver.sh命令可以接收所有spark-submit命令可以接收的参数,额外增加的一个参数是--hiveconf,可以用于指定一些Hive的配置属性。可以通过行./sbin/start-thr