一、背景
1、上周生产集群加入几台节点,执行start-balancer后进度十分地缓慢,连续几天未完成。
2、屋漏偏逢连夜雨,周六供电线路被施工挖断,机房UPS在坚持几个小时后,集群整体宕掉。
3、周一供电正常后,集群再次启动。
二、问题
1、症状
(1)hadoop,hdfs启动后上传文件正常,日志中未发现异常。
(2)hbase,可以启动,但是启动后很多表的regions无法正常加载,执行hbase hbck异常比较多。hbase启动后hdfs上传文件出现错误。hbase表可以访问,但是其访问速度异常地慢。
2、解决
(1)排除硬件服务器异常。
(2)通过检查发现部分服务器的时间未与时钟服务器同步,手机同步一次,检查及重新配置执行计划。
(3)重点,根据节点日志上报的明显错误,调整了hdfs-site.xml中的参数。重启hdfs及hbase后正常。
三、日志
1、hadoop hdfs上传文件报出问题
17/03/29 13:30:31 INFO hdfs.DFSClient: Exception in createBlockOutputStream
java.io.EOFException: Premature EOF: no length prefix available
at org.apache.hadoop.hdfs.protocolPB.PBHelper.vintPrefixed(PBHelper.java:2282)
at org.apache.hadoop.hdfs.DFSOutputStream$DataStreamer.createBlockOutputStream(DFSOutputStream.java:1346)
at org.apache.hadoop.hdfs.DFSOutputStream$DataStreamer.nextBlockOutputStream(DFSOutputStream.java:1266)
at org.apache.hadoop.hdfs.DFSOutputStream$DataStreamer.run(DFSOutputStream.java:449)
17/03/29 13:30:31 INFO hdfs.DFSClient: Abandoning BP-903121414-10.141.17.33-1461912427616:blk_1076230712_2574868
17/03/29 13:30:31 INFO hdfs.DFSClient: Excluding datanode DatanodeInfoWithStorage[10.141.17.47:50010,DS-9cf11117-1b97-400e-87f7-0dd4aad6c266,DISK]
17/03/29 13:30:31 INFO hdfs.DFSClient: Exception in createBlockOutputStream
java.io.IOException: Got error, status message , ack wi