昨天把大数据测试集群节点各个环节跑起来了,spark程序也正常运行了,当你以为一切正常的时候。第二天回来一看,不好意思,spark程序出问题了,不能消费,并且webUI的streaming界面进不去,查看日志错误信息大致如下:
org.apache.spark.SparkException: Exception thrown in awaitResult
ERROR CoarseGrainedExecutorBackend: RECEIVED SIGNAL TERM
这个界面点不进去,有点莫名奇妙。开始各种百度。。。甚至重装spark集群,发现都没解决,最后,发现有个kafka节点挂了。。。但是,三个节点挂了一个怎么就出问题了呢?后来才想起来,当初建topic的时候只有一个副本,于是查看topic详细信息,果然,只有一个副本,并且副本在挂了的节点上。。。。
这个问题解决后,又出现了新的问题,我发现kafka一直消费日志信息入库es,难道是offset问题?最后通过linux命令测试生产者和消费者,是正常的,那么问题就出现在flume了,flume一直重发相同的消息,查看flume日志,果然报错了,错误信息如下:
我先把flume重启了一遍,结果。。。好了。 what the fuck? 还不知道什么原因造成了。。猜想难道是我中途kafka挂了造成的(中途也有一直重启关闭kafka)?测试过也不是这个原因呀。。。