HiveServer 接收多个客户端发送的 SQL,HiveServer 在编译的时候,默认是串行编译。这样导致编译一个客户端的 SQL 的时候,其他客户端的编译请求需要等待。
参数设置
<property>
<name>hive.driver.parallel.compilation</name>
<value>false</value>
<description>
Whether to
enable parallel compilation of the queries between sessions and within the same session on HiveServer2. The default is false.
</description>
</property>
编译性能测试
我们使用 tpcds 的 99 个 SQL 文件里的SQL, 连接 HiveServer,用 explain 进行生成执行计划,生成执行计划必须完成编译。
单线程测试
单线程使用 166345 ms
3 个线程测试
线程 1 使用 434078 ms
线程 2 使用 434621 ms
线程 3 使用 435138 ms
并行测试
先把 hive-site.xml
增加以下内容.
<property>
<name>hive.driver.parallel.compilation</name>
<value>true</value>
<description>
Whether to
enable parallel compilation of the queries between sessions and within the same session on HiveServer2. The default is false.
</description>
</property>
重启 HiveServer
3 个线程测试
线程 1 使用 183818 ms
线程 2 使用 184821 ms
线程 3 使用 185408 ms
代码分析
Driver 代码可以看到,如果 isParallelEnabled=true
,则使用 session 内的编译锁,各 session 没有关系。否则使用 globalCompileLock
private ReentrantLock tryAcquireCompileLock(boolean isParallelEnabled,
String command) {
final ReentrantLock compileLock = isParallelEnabled ?
SessionState.get().getCompileLock() : globalCompileLock;