坏盘导致Kafka故障一例

最新推荐文章于 2024-07-02 07:46:27 发布

damipingzi

最新推荐文章于 2024-07-02 07:46:27 发布

阅读量7.1k

点赞数 1

分类专栏： Kafka 文章标签： kafka

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/mayp1/article/details/51228143

版权

本文讲述了由于Kafka集群中一台机器的硬盘故障，导致数据无法正常写入并引起Flume ChannelFullException的问题。分析了Kafka源码，指出Kafka在检查日志目录时并未验证是否可写，导致坏盘情况下仍尝试写入，从而影响服务。提出了社区修复、自定义补丁和使用RAID5等解决方案。

摘要由CSDN通过智能技术生成

最近工作中又踩到Kafka的一坑。

某日收到业务侧告警说无数据，首先怀疑Flume问题，因为之前踩的Flume坑多嘛，发现某个Flume实例中有ChannelFullException，因为用的是memory channel，确认可丢数据后杀死Flume进程，起来后channel又满了。

于是确定应该是下游Kafka问题，查了每个Kafka实例的日志，发现一个实例的日志中反复打kafka.common.NotLeaderForPartitionException，而这个异常的等级又仅是ERROR，没把Kafka自己弄死。

之后又从主机告警中看到这台机器有慢盘问题。因为这个Kafka集群分发的数据量很大，因此组了一个20+台机器的集群，每台挂12块3T盘，以保证日志空间够用。为了恢复慢盘，决定把Kafka干掉，unmount掉盘准备再mount时，发现mount不上了，看来是硬盘故障。但奇怪的是硬盘故障没有导致Kafka实例挂掉，也没有避免写入该盘的机制，只是挂起在那里。

其实这个问题只要看一下Kafka源码就不难理解了。

Kafka源码分析（5）中，LogManager的构造方法中有以下调用：

createAndValidateLogDirs(logDirs)

这个方法的具体代码如下：

  /**
   * Create and check va

最低0.47元/天解锁文章

关注

1
点赞
踩
6

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

damipingzi CSDN认证博客专家 CSDN认证企业博客

码龄10年

37: 原创

17万+: 周排名

200万+: 总排名

28万+: 访问

: 等级

2565: 积分

101: 粉丝

90: 获赞

30: 评论

178: 收藏

私信

关注

热门文章

分类专栏

Hadoop 5篇
SQL 3篇
NoSQL 7篇
IOS 4篇
其他 9篇
Kafka 8篇
ZooKeeper 7篇
Java

最新评论

虚拟化的层次与机制
Benzenene!: 谢谢博主。这应该是我见到讲几种虚拟化的文章中最清晰透彻的一篇了。
CDH官网禁止下载后的应对策略
Mooney安: 大佬有没有例子呀？具体的怎么拼接呢
ZooKeeper的三种角色
泰山与水: 每个服务器看到的名字空间内容都是一致的，无所谓在哪台机器上读取数据？如果是读取到还没同步成功的follwer呢数据就不是最新的了
Java多线程，Thread和Runnable究竟该用哪个
Tunnyl: 很不错博主加油一起学习！http://www.mawen.co/question/1134?utm_campaign=PC&utm_medium=cpc&utm_source=PC%E6%8E%A8%E5%B9%BF&gio_link_id=WoMNlgK
Spring Boot引用本地jar包
吧唧部回复 Jack-Lan: 你是没有放行resouece资源

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。