162、Spark SQL实战开发进阶之Thrift JDBC、ODBC Server

Spark SQL的Thrift JDBC/ODBC server是基于Hive 0.13的HiveServer2实现的。这个服务启动之后,最主要的功能就是可以让我们通过Java JDBC来以编程的方式调用Spark SQL。此外,在启动该服务之后,可以通过Spark或Hive 0.13自带的beeline工具来进行测试。
要启动JDBC/ODBC server,主要执行Spark的sbin目录下的start-thriftserver.sh命令即可
start-thriftserver.sh命令可以接收所有spark-submit命令可以接收的参数,额外增加的一个参数是--hiveconf,可以用于指定一些Hive的配置属性。可以通过执行./sbin/start-thriftserver.sh --help来查看所有可用参数的列表。默认情况下,启动的服务会在localhost:10000地址上监听请求。

可以使用两种方式来改变服务监听的地址

第一种:指定环境变量
export HIVE_SERVER2_THRIFT_PORT=<listening-port>
export HIVE_SERVER2_THRIFT_BIND_HOST=<listening-host>

./sbin/start-thriftserver.sh \
  --master <master-uri> \
  ...

第二种:使用命令的参数

./sbin/start-thriftserver.sh \
  --hiveconf hive.server2.thrift.port=<listening-port> \
  --hiveconf hive.server2.thrift.bind.host=<listening-host> \
  --master <master-uri>
  ...

这两种方式的区别就在于,第一种是针对整个机器上每次启动服务都生效的; 第二种仅仅针对本次启动生效
本案例使用第一种,启动脚本为

 ./start-thriftserver.sh \
 --master spark://spark-project-1:7077 \
 --num-executors 2 \
 --driver-memory 600m \
 --executor-memory 600m \
 --executor-cores 2 \
 --conf spark.cores.max=2 \
 --jars /opt/module/hive/lib/mysql-connector-java-5.1.17.jar

接着就可以通过Spark或Hive的beeline工具来测试Thrift JDBC/ODBC server
在Spark的bin目录中,执行beeline命令(当然,我们也可以使用Hive自带的beeline工具):./bin/beeline
进入beeline命令行之后,连接到JDBC/ODBC server上去:beeline> !connect jdbc:hive2://localhost:10000

beeline通常会要求你输入一个用户名和密码。在非安全模式下,我们只要输入本机的用户名(比如root),以及一个空的密码即可。
对于安全模式,需要根据beeline的文档来进行认证。

除此之外,要注意的是,如果我们想要直接通过JDBC/ODBC服务访问Spark SQL,并直接对Hive执行SQL语句,那么就需要将Hive,的hive-site.xml配置文件放在Spark的conf目录下。

Thrift JDBC/ODBC server也支持通过HTTP传输协议发送thrift RPC消息。使用以下方式的配置可以启动HTTP模式:

命令参数

./sbin/start-thriftserver.sh \
  --hive.server2.transport.mode=http \
  --hive.server2.thrift.http.port=10001 \
  --hive.server2.http.endpoint=cliservice \
  --master <master-uri>
  ...
./sbin/start-thriftserver.sh \
  --master spark://spark-project-1:7077 \
  --jars /opt/module/hive/lib/mysql-connector-java-5.1.17.jar \
  --hiveconf hive.server2.transport.mode=http \
  --hiveconf hive.server2.thrift.http.port=10001 \
  --hiveconf hive.server2.http.endpoint=cliservice 

beeline连接服务时指定参数
beeline> !connect jdbc:hive2://localhost:10001/default?hive.server2.transport.mode=http;hive.server2.thrift.http.path=cliservice

最重要的,当然是通过Java JDBC的方式,来访问Thrift JDBC/ODBC server,调用Spark SQL,并直接查询Hive中的数据,通过Java JDBC的方式,必须通过HTTP传输协议发送thrift RPC消息,Thrift JDBC/ODBC server必须通过上面命令启动HTTP模式
添加maven依赖

<dependency>
  <groupId>org.apache.hive</groupId>
  <artifactId>hive-jdbc</artifactId>
  <version>0.13.0</version>
</dependency>
<dependency>
  <groupId>org.apache.httpcomponents</groupId>
  <artifactId>httpclient</artifactId>
  <version>4.4.1</version>
</dependency>
<dependency>
  <groupId>org.apache.httpcomponents</groupId>
  <artifactId>httpcore</artifactId>
  <version>4.4.1</version>
</dependency>

代码

import java.sql.Connection;
import java.sql.DriverManager;
import java.sql.PreparedStatement;
import java.sql.ResultSet;

public class ThriftJDBCServerTest {
    public static void main(String[] args) {
        String sql = "select key from src where key=?";

        Connection conn = null;
        PreparedStatement pstmt = null;
        ResultSet rs = null;

        try {
            Class.forName("org.apache.hive.jdbc.HiveDriver");

            conn = DriverManager.getConnection("jdbc:hive2://192.168.114.200:10001/default?hive.server2.transport.mode=http;hive.server2.thrift.http.path=cliservice",
                    "root",
                    "");

            pstmt = conn.prepareStatement(sql);
            pstmt.setInt(1, 480);

            rs = pstmt.executeQuery();
            while(rs.next()) {
                String name = rs.getString(1);
                System.out.println(name);
            }
        } catch (Exception e) {
            e.printStackTrace();
        }
    }
}
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值