记录一下HBase Scan过程中的nextCallSeq不匹配问题
问题记录
最近生产环境扫描HBase过程中,又出现了nextCallSeq不匹配问题。具体报错如下图:
第一个错DoNotRetryIOException,第二个错OutOfOrderScannerNextException
在开始细说这两个错误前,首先需要明确两个时间概念:租约持续时间与RPC超时时间。因此本文就从HBase scanner租约机制与HBase scan的RPC交互机制谈起。
1、Lease 租约:
RS的租约期,RS的租约设计用于当client端持有RS资源的场景,主要用于scan操作,RS会为client端保留scanner对象,以便多次交互,默认为60000ms, 60s。
客户端必须在该时间内向RS发送心跳信息,否则RS认为client是deaded,超过该时间请求RS时,RS会抛出异常,对于scan操作一次next读取相当于一次心跳(参看:Leases类),在client端用该时间作为scan查询时每次next()的超时时间。
相关参数:
hbase.regionserver.lease.period/scanner.timeout.period(忽略代码配置>hbase-site.xml配置优先级。两个参数在同一配置文件被配置不同值时,配置的hbase.regionserver.lease.period参数生效)
官网解释:
2、RPC:
2.1、关于hbase.rpc.timeout配置:
每次RPC的超时时间,默认为60000ms, 60s,如果没有超时则等待1s后再重试,直到超时或者重试成功,起三个作用:
-
Socket读数据的超时时间。如果超过超时值,将引发 java.net.SocketTimeoutException具体解释请参考:java.net.Socket.setSoTimeout()的API