我使用的hadoop版本1.0.2 hbase版本0.94 全部是社区的原版;
现场重现
7月10号下午16点:做好新节点配置,启动datanode,正常!启动regionserver正常;
7月11号上午9点:发现该节点regionserver进行挂掉;已经自动退出;datanode进程健在;
查看regionserver日志,发现日志的记录时间是从7月11号01点开始(疑点1:实际上我启动的时间是7月10号下午16点),然后接着往下看日志,没有异常,报错什么的,启动的时候一切正常,再往下看,突然发现日志时间变成7月10号20点多(疑点2:时间变正常了),然后就接着报错,regionserver shutdown(疑点3:为啥会挂掉);
再看hadoop日志,hadoop的datanode日志写了大概54G的大小;
7月10号下午到11号凌晨,一直在给集群入数据;但是7月11号,看该节点的数据,没有写到这个节点上任何数据;
疑点1,2的解答:该节点配置的自动对时是凌晨4点多,根据日志的情况,当时的情况应该是这样的,服务器的实际时间是7月11号1点多,服务正常启动,然后服务器到7月11号4点后,发现时间不对,校准后变成7月10号20点多; 这个时间间隔和我启动服务和服务进程shutdown的时间间隔基本一直;所以说日志的时间变化,疑点1,2得到解释;这个时间的变化,有硬件时钟和系统时钟的关系,可以度娘。应该找clock和date
疑点3的解答:应该是时间变化,zookeeper发现后,认为时间不对,认为regionserver有问题,然后退出;我这个节点不是leader也不是follower;
最终的疑点:
为啥时间不对,hbase可以启动起来;看hbase的源码,有个slave和master的时间检查,默认30S,不知道跨天的情况如何;待有环境重现;