storm日志

最新推荐文章于 2022-05-10 15:31:51 发布

silent1

最新推荐文章于 2022-05-10 15:31:51 发布

阅读量3.4k

点赞数

文章标签： storm

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/silent1/article/details/51750417

版权

2016.06.24

昨天3台服务器中的1台，supervisor起不来，一直报FileNotFoundException，找不到“storm/data/supervisor/localstate/1466652445675”这个文件。

后来把storm/data/supervisor目录删除掉就好了。

这个估计是不正常关机造成的状态不一致造成的。具体原因不清楚。解决办法受这个帖子启发：

http://stackoverflow.com/questions/22318783/storm-supervisors-crashing-on-reboot

昨天还有一件事，

140、14服务器以前部署过统计集群，这次集群并没有包含201、14，但是14上的守护并没有删除，从log看14上的mongo一直尝试连接140，140确实在处理214的请求，但最终好象是因为opTime不同，并没有成功。此尝试一直在进行，干扰是肯定的。估计是replset名相同造成的。

从14上的log看，14上收到的hearbeat信息中id值不匹配。

昨天给email库的各个collection添加了索引。

增加索引是在库的初始化脚本中进行的，复制集初始化完成后即进行。虽然库、表都没有，表结构也没有，但不影响创建索引，这就是freeschema的魅力吧。

昨天实体机集群非正常关机，今天开机后，竟然奇迹般自动恢复了。

storm：

134 worker日志：

worker起的比较早，9：33以前一直在连接140的6700端口，应该是supervisor还没有起来。为什么连140的呢？

9:34, 报kafka连不上， node broker/id/0 doesn't exist.

一直报从kafka获取topic数据失败，fetch failed.

9：40分正常了，没有error了。

supervisor日志：

9：31报zookeeper连不上的错误，socket, connection refused, zookeeper timeout

9:33:08之后错误消失。

kafka日志：

9:33:07之前报zookeeper连不上错误。

9:39:46~9:39:49一直报NotLeaderForPartition， leader not local的错误, 告警。应该是重启之后做了balance。之后消失。

mongodb日志：

9:31~9:34replset之间的连接建立。到9:40,storm相关的连接建立。这与5分钟tick相关吗？

flume日志：

9：31报zookeeper连不上错误，6秒之后就不报了，这个这么快？

zookeeper日志：

9：33之后建立好集群。flume为什么那么快就连上了？

验证ui上kill topo，bolt的clear是否可以调用成功。答案yes

验证通过脚本停止topo，bolt的clear是否可以调用成功。答案yes

有待验证， rebalance时，bolt的clear是否可以调用成功

在初始化mongodb的时候，在一台服务器上，先初始化完rs，然后给某个库的某个collection添加索引（写在一个脚本里面）。

这个添加索引的操作，使用命令行时，必须在primary上进行。

按道理，进行rs初始化的服务器不一定是primary，所以，创建索引有可能会失败。但实际情况是，即使该服务器不是primary，创建索引也成功了。

应该是创建索引的命令，在rs选举primary之前完成的，貌似这时候可以做各种初始化工作而不要管服务器是否为primary。

2016.7.1

今天启动集群，发现一个机子的zookeeper起不来。

手动起一下，报“starting zookeeper ... already running as process 3797”。 ps -ef 里面又找不到该process 3797。ps -ef | grep zookeeper, 也找不到。

有点莫名其妙，zookeeper bug？解决办法： kill -9 3797，再启动就OK了。

2016.7.29

前天有个同事说一台storm服务器的oracle起不来了。说是内存不足。

看了下，16G内存还有9G free。

然后启动停止集群，deploy程序跑到这台服务器的时候，也报内存不足。

top查看了一下，nimbus、kafka、worker进程的cpu使用率都在100%以上。这时候集群啥事也没干。

停止topology，cpu使用率都下来了。看来kafka的cpu高利用率也跟topology有关系。

通过top -H -p 进程id 查看进程中哪个线程cpu占用率高

再用jstack查看调用栈

jstack -F pid > tmp1.log
grep -A 50 线程id tmp1.log

最终发现都是跟topology与kafka的通讯有关。

gg了一下：

http://www.cnblogs.com/lingfengblogs/p/5242288.html

http://stackoverflow.com/questions/20469734/cpu-usage-and-serialization-at-each-worker

http://www.cnblogs.com/jianyuan/p/4891450.html

问题出在storm的一个配置项上：

topology.sleep.spout.wait.strategy.time.ms

spout每次发送完消息，会更新emitted_count, 如果没有更新，则休眠“topology.sleep.spout.wait.strategy.time.ms”后，再次调用spout发送。

“topology.sleep.spout.wait.strategy.time.ms”缺省值是1毫秒。由于是空闲状态，所以并没有消息发送，所以每隔1ms，kafkaspout都会重新

连接kafka，获取消息。我们的topology里有141个spout，所以1毫秒内会有141个socket连接。大概是这么个意思。

把“topology.sleep.spout.wait.strategy.time.ms”调到1000毫米，cpu使用率绝大部分时间都降到5%以下了。

上述问题估计也造成内存碎片化很厉害，导致分不出1较大块完整的内存来，造成其它程序启动失败。

同时还修改了kafka的“heatbeat.interval.ms”, 新值10000，缺省值1000。但从测试的效果看，该值影响不大。

2017.4.19

预处理启动时，检测zookeeper总说zookeeper有可能他没起来，但进程在啊。

后来发现是防火墙没关

通过新安装的预处理平台调试storm程序，但是debug的时候一启动就报：

java.lang.RuntimeException: java.nio.channels.UnresolvedAddressException

......

搜了下，这篇文章解决问题：

http://www.cnblogs.com/zhwbqd/p/4045263.html

问题在于: storm kafkaSpout 通过ZK去获取kafka的地址, 但是zk中保存的kafka是以域名的方式保存的, 调试机没有配置这几台服务器的host。

2017.6.1

今天同事说有台机器的redis起不来了，打开日志看了一下，说

Wrong signature trying to load DB from file

Fatal error loading the DB: Invalid argument. Exiting

查了一下，应该是redis非正常关闭造成 rdb文件损坏引起的。删掉rdb文件再启动就好了。

这个原因是现在的redis停止脚本用的kill -9杀进程，应该用

redis-cli -p 63xx shutdown

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

silent1 CSDN认证博客专家 CSDN认证企业博客

码龄23年

32: 原创

9万+: 周排名

69万+: 总排名

16万+: 访问

: 等级

1923: 积分

99: 粉丝

11: 获赞

16: 评论

18: 收藏

私信

关注

热门文章

分类专栏

vs 2010 6篇
vs 2005 3篇
.net framework 4.0 3篇
.net framework2.0 3篇
windows 2000 3篇
开发工具选择 3篇
hadoop 4篇
ubuntu 2篇
jdk 2篇
eclipse 2篇
vmware 3篇
编程无关 1篇
7zip 1篇
压缩 1篇
putty 2篇
kickstart 5篇
centOS 3篇
OpenAM 1篇
OpenSSO 1篇
chef 1篇
高铁
打电话
mahout 1篇
elasticsearch 8篇
Hbase 4篇
分布式文件系统 3篇
分布式文件存储 1篇
spark
预处理
tika

最新评论

kafka宕机恢复
silent1 回复猿来如此dj: server.properties
kafka宕机恢复
猿来如此dj: 最后的这个设置实在那个配置文件设置
mhout in action : 13.4.1 阶段1(训练分类模型)的流程
silent1: 从第13章开始看的, 前面没有看。非科班出身，术语肯定不标准。路过同学有看到的，指出下。
openAM 志遗
silent1 回复 NiuAa: 哥们, 这个有段时间没弄了。当时也没有弄利落。有点教训就是服务器的hostname要采用域名或者域名的形式。
openAM 志遗
NiuAa: 哥们，我有些问题想请教你，最近，我也是在搞这个，公司项目要有这个功能，我分别下载了openAM和openNMS都安装不成功，没法用到，现在，我这里需要配置一个idp，希望能与你交流

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。