当kafka集群其中一台宕机后,集群不能正常工作(已解决)

一、介绍

我们搭建好kafka集群后,对其进行性能测试。遇到这种场景:我搭建好了三台kakfa集群,然后停掉其中一台kafka,然后集群是否能正常工作呢?
kafka集群:
192.168.183.53 节点1
192.168.183.55 节点2
192.168.183.62 节点3

创建的主题是hw_data:
三个分区、三个副本

./kafka-topics.sh --create --zookeeper 192.168.183.53:2181 --topic hw_data --partitions 3 --replication-factor 3

二、问题

三个节点启动以后,集群正常工作,正常生产、正常消费。
但是当我们停掉其中一个节点后,发现集群不能正常工作了。

三、原因

我的这个问题的凶手是:__consumer_offsets

首先查看系统的_offsets副本是几个?

./kafka-topics.sh --describe --zookeeper 192.168.183.53|grep consumer_offsets

在这里插入图片描述
我们看到 副本数为1,这就是导致我们当一个节点宕机后集群无法正常工作的原因!

__consumer_offsets这个topic是由kafka自动创建的,默认50个,但是都存在一台kafka服务器上,这是不是就存在很明显的单点故障?
经测试,如果将存储consumer_offsets的这台机器kill掉,所有的消费者都停止消费了。
__consumer_offsets是一个非常重要的topic,我们怎么能允许它只有一个副本呢?这样就存在单点故障,也就是如果该分区所在的集群宕机了的话,我们的消费者就无法正常消费数据了。

四、解决办法

1.修改系统_offsets副本数为3

修改kafka的核心配置文件server.properties
num.partitions参数(默认为1)修改为3,
另外需要添加auto.create.topics.enable=true ,如果没有对用的topic可以主动创建topic。
在这里插入图片描述
由于__consumer_offsets是kafka默认的主题,无法删除,我们可以删除zookeeper中的__consumer_offsets
进入zookeeper/bin目录执行./zkCli.sh

ls /broksers/topics
rmr /broksers/topics/__consumer_offsets
ls /broksers/topics

在这里插入图片描述
先将集群停掉
在重新启动zookeeper和kafka
再次查看__consumer_offsets。发现副本数已经是3

在这里插入图片描述
在节点1修改__consumer_offsets后,在节点2和节点3查看__consumer_offsets发现副本数已经变为3,不需要再进行修改。
在这里插入图片描述

在这里插入图片描述

我的问题到这里就解决了:
启动kafka集群三个节点,然后停掉其中任意一个节点,集群是可以正常工作的。

2.修改创建的topic的副本数为3

查看创建的topic的副本数是否为1.
在这里插入图片描述

Bug1 kafka启动以后没有添加到zk节点

在这里插入图片描述
进入zookeeper的bin目录,执行./zk.Cli.sh
删除brokers下的ids

ls /brokers/ids
rmr /brokers/ids

重启kafka,应该就可以了。

Bug2 无法删除topic

我首先使用rmr /brokers/topics/topicname删除了zookeeper中的topic ,这样查看kafka中的topic时,显示已经没有了,
但是我又创建我刚刚删除的主题时,发现他已经显示被标记删除。
我的配置文件已经设置了删除topic为true,但是我删除的主题还是显示被标记删除,没有真正的删除
解决办法:
进入zookeeper的bin目录,执行./zk.Cli.sh
删除config、brokers、admin下的对应主题

rmr /config/topics/topicname
rmr /brokers/topics/topicname
rmr /admin/delete_topics/topicname
  • 7
    点赞
  • 49
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 3
    评论
kafka集群中的某台服务器宕机时,我们可以采取以下步骤来恢复kafka partition数据: 1. 首先,我们需要检查宕机服务器的硬件状况并确保服务器可以正常启动。如果是硬件故障导致宕机,我们需要修复或更换故障的硬件设备。 2. 然后,我们需要找出宕机服务器上的kafka数据目录。在该目录中,我们可以找到kafka partition的日志和索引文件,以及其他相关的元数据。 3. 接下来,我们需要将宕机服务器上的数据目录复制到一台正常运行的kafka服务器上。确保复制过程中保持数据的一致性。 4. 一旦数据目录复制完成,我们需要更新kafka的配置文件以指向新的数据目录。在配置文件中,我们需要修改`log.dirs`参数来指定新的数据目录路径。 5. 在更新配置文件后,我们可以启动kafka服务器,并使用命令`bin/kafka-server-start.sh <path_to_config_file>`来启动kafka。 6. 一旦kafka服务器成功启动,它将读取复制的数据目录,并恢复partition的数据。在此过程中,kafka会检查和修复任何可能的数据损坏。 7. 最后,我们可以使用kafka的工具来验证数据恢复的情况。通过连接到kafka服务器并使用命令行工具来消费和生产消息,我们可以确保partition的数据已成功恢复。 总结而言,当kafka集群中的某台服务器宕机时,我们可以通过将宕机服务器上的数据复制到正常服务器上,并更新配置文件来恢复kafka partition的数据。这样,在新的服务器上启动kafka后,数据将会被读取和恢复,从而保证数据的一致性和可用性。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Liu_Shihao

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值