java.io.IOException: Connection reset by peer问题处理

最新推荐文章于 2024-06-03 14:57:29 发布

**码上人生**

最新推荐文章于 2024-06-03 14:57:29 发布

阅读量2.4w

点赞数 1

分类专栏： hadoop相关文章标签： hive 集群 zookeeper

本文链接：https://blog.csdn.net/qq_16365849/article/details/45041199

版权

hadoop相关专栏收录该内容

11 篇文章 0 订阅

订阅专栏

HiveServer2支持多客户端的并发访问，使用ZooKeeper来管理Hive表的读写锁。实际环境中，遇到了HiveServer2连接ZooKeeper出现Too many connections的问题，这里是对这一问题的排查和解决过程。

问题描述

HiveServer2服务无法执行hive命令，日志中提示如下错误：

2013-03-2212:54:43,946 WARN zookeeper.ClientCnxn(ClientCnxn.java:run(1089)) - Session 0x0 for serverhostname/***.***.***.***:2181, unexpected error, closing socket connection andattempting reconnect
java.io.IOException: Connection reset by peer
        atsun.nio.ch.FileDispatcher.read0(Native Method)
        atsun.nio.ch.SocketDispatcher.read(SocketDispatcher.java:21)
        atsun.nio.ch.IOUtil.readIntoNativeBuffer(IOUtil.java:233)
        atsun.nio.ch.IOUtil.read(IOUtil.java:200)
        atsun.nio.ch.SocketChannelImpl.read(SocketChannelImpl.java:236)
        atorg.apache.zookeeper.ClientCnxnSocketNIO.doIO(ClientCnxnSocketNIO.java:68)
        atorg.apache.zookeeper.ClientCnxnSocketNIO.doTransport(ClientCnxnSocketNIO.java:355)
        atorg.apache.zookeeper.ClientCnxn$SendThread.run(ClientCnxn.java:1068)

问题排查

1. 首先，根据HiveServer2的错误日志，提示是由于Connection reset by peer，即连接被ZooKeeper拒绝。

2. 进一步查看HiveServer2上所配置的ZooKeeper集群日志（用户Hive表的读写锁管理），发现如下错误信息：

2013-03-2212:52:48,938 [myid:] - WARN [NIOServerCxn.Factory:0.0.0.0/0.0.0.0:2181:NIOServerCnxnFactory@193] -Too many connections from /***.***.***.*** - max is 50

3. 结合HiveServer2的日志，可见是由于HiveServer2所在机器对ZooKeeper的连接数超过了ZooKeeper设置允许的单个client最大连接数（这里是50）。

4. 我们进一步确认了是不是完全都是HiveServer2占用了这50个连接，显示确实是HiveServer2进程内部占用了这50个连接（进程号26871即为HiveServer2进程）：

[user@hostname~]$ sudo netstat -nap | grep2181
tcp    0      0 ***.***.***.***:58089   ***.***.***.***:2181    ESTABLISHED 26871/java
tcp    0      0 ***.***.***.***:57837   ***.***.***.***:2181    ESTABLISHED 26871/java
tcp    0      0 ***.***.***.***:57853   ***.***.***.***:2181    ESTABLISHED 26871/java
……
(共计50个)

5. 为什么HiveServer2会占用这么多连接？而实际并发请求量并没有这么多。只能从HiveServer2的实现原理找找线索，由于HiveServer2是通过Thrift实现的，怀疑是不是其内部维护连接池导致的？经过查看hive-default.xml中发现，其中默认配置了工作线程数（这里猜测每个工作线程会维护一个与ZooKeeper的连接，有待从代码级别进行验证）：

<property>
<name>hive.server2.thrift.min.worker.threads</name>
<value>5</value>
<description>Minimum number ofThrift workerthreads</description>
</property>
<property>
<name>hive.server2.thrift.max.worker.threads</name>
<value>100</value>
<description>Maximum number ofThrift worker threads</description>
</property>

问题解决

方法一：

通过在hive-site.xml中修改HiveServer2的Thrift工作线程数，减少与ZooKeeper的连接请求数。这样可能降低HiveServer2的并发处理能力。

方法二：

通过修改ZooKeeper的zoo.cfg文件中的maxClientCnxns选项，调大对于单个Client的连接数限制。

以上两个方法，需要根据自己的实际生产情况进行合理设置。

相关的配置选项：

1）hive-site.xml中：

<property>
<name>hive.server2.thrift.min.worker.threads</name>
<value>10</value>
<description>Minimum number ofThrift workerthreads</description>
</property>
<property>
<name>hive.server2.thrift.max.worker.threads</name>
<value>200</value>
<description>Maximum number ofThrift workerthreads</description>
</property>
<property>
<name>hive.zookeeper.session.timeout</name>
<value>60000</value>
<description>Zookeeper client'ssession timeout. The client is disconnected, and as a result, all locksreleased, if a heartbeat is not sent in thetimeout.</description>
</property>

2）zoo.cfg中：

#Limits the number of concurrent connections (at the socket level) that a singleclient, identified by IP address
maxClientCnxns=200
# The minimum session timeout in milliseconds that the server will allow theclient to negotiate
minSessionTimeout=1000
# The maximum session timeout in milliseconds that the server will allow theclient to negotiate
maxSessionTimeout=60000

来自 <http://www.cnblogs.com/panfeng412/archive/2013/03/23/hiveserver2-too-many-zookeeper-connections-issues.html>

**码上人生**

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
java.io.IOException: Connection reset by peer问题处理

HiveServer2支持多客户端的并发访问，使用ZooKeeper来管理Hive表的读写锁。实际环境中，遇到了HiveServer2连接ZooKeeper出现Too many connections的问题，这里是对这一问题的排查和解决过程。问题描述HiveServer2服务无法执行hive命令，日志中提示如下错误：2013-03-2212:54:43,946 WARN zo
复制链接

扫一扫

专栏目录