1.Spark计算都转移到了一个节点上,即只有一个节点在计算。
搭建好的spark集群,进行计算的时候发现,所有的slave节点上的task生成后,快速退出,并且生成好多task。查看spark ui上发现,只有主节点上有正常task运行,其他的slave节点都没有分到相应的task。如下所示:
主要是找到错误日志,主节点上的work目录下没有错误输出,然后找到slave节点下的work目录下,找到相应的app目录下,的staerr文件,发现slave节点一直在报错,是与主节点的netty通信异常,结合之前的经验,发现可能是jar包冲突。进入到spark的SPARK_CLASSPATH目录下,发现有两个netty相关的jar包。去掉一个之后,再运行,发现可以正常分发task了。
2.spark读取hbase数据,regionserver总是莫名其妙的挂掉,并出现以下异常:
org.apache.hadoop.ipc.RemoteException(org.apache.hadoop.hdfs.server.namenode.LeaseExpiredException): No lease on /hbase/oldWALs/h2%2C16020%2C1536546484765..