背景
项目中应用服务直接通过jdbc连接impala做数据查询,其他遇到一个问题,查询impala时因为没有设置查询超时,有些大sql一直占用连接,同时这个sql在impala集群中执行着,也占用了impala集群的资源,这样挤压了其他sql的响应。所以这时候设置查询超时,让连接断开,空闲出集群资源能够很大程度上提升服务的稳定性。
解决过程
连接impala的jdbc主要有cloudera jdbc和hive jdbc。因为需要使用kerberos认证来连接impala,最开始同事为了简单话选择了hive jdbc,配置kerberos也方便(官方推荐 Cloudera JDBC Connector)。开始用的很爽,但后面发现并不能设置查询超时(Statement.setQueryTime()无效,但是如果通过hive jdbc连接查询hive的话是能够生效的---HIVE-4924,查询impala却不行)。最后想查询下hive jdbc是否还有其他参数能够设置,通过几天的寻找,最终却无果。
后来把目光放在了cloudera jdbc上,通过文档中的参数,发现一个SocketTimeout参数,并在本地尝试了cloudera jdbc配置上SocketTimeout这个参数,在自测过程上都出现了大的查询没有执行完,因为SocketTimeout时间到了而断开并抛出socket timeout exception,当时很开心,以为问题解决了,当把这个拿给同事时,同事试了几次,有时候会timeout断开,有时候却根本不断开,直到sql执行成功返回,基本宣布这个参数失败。
再一次失败后,都快觉得这个问题搞不定了&#