kafka日志回收的详解及使用

https://img-blog.csdnimg.cn/img_convert/1115df6a0266f75ada0e2c211719310a.png
 

 分析记录一次线上问题

发现磁盘使用率极速飙升,接近100%。程序存在异常退出现象。

现象

  • 磁盘使用率告警 磁盘基本占满,上有持续写入
  • Kafka/Zk服务挂掉。

Topic的清理策略

cleanup.policy: delete

kafka log的清理策略有两种:delete,compact, 默认是delete

DUMP文件

kafka-topics --bootstrap-server broker:9092 --topic topicname --describe
Topic:xxx  PartitionCount:3        ReplicationFactor:3     Configs:min.insync.replicas=1,segment.bytes=1073741824,retention.ms=14400000,max.message.bytes=10485760,min.cleanable.dirty.ratio=0.5,unclean.leader.election.enable=false,retention.bytes=-1,delete.retention.ms=604800000

三分区,三副本,保留4小时,初步定位到是由于上有大量写入。

更改保留时间

修复方式见下文:

kafka-topics --bootstrap-server broker:9092 --topic topicname --config retention.ms=3600000 

问题分析

概述

log.retention.check.interval.ms  = 300000 【5min】
kafka时间戳的作用

基于时间戳的日志切分策略
基于时间戳的日志清除策略
根据时间戳来定位消息:之前的索引文件是根据offset信息的,从逻辑语义上并不方便使用,引入了时间戳之后,Kafka支持根据时间戳来查找定位消息

kafka 参数

message.timestamp.type: 定义消息中的时间戳是消息创建时间还是日志附加时间。

值应该是“CreateTime”或“LogAppendTime”, 默认为:CreateTime

  • LogAppendTime

        为 ingestion-time 不可以自定义指定时间,系统自动生成当前producer时间

  • CreateTime event-time

        可以自定义自定timestamp,如果不指定则默认为系统自动生成当前producer时间,即LogAppendTime时间

因为上游数据大幅写入。数据回滚操作频繁导致磁盘使用率超高,先停止上有写入kafka程序,再修改释放相关磁盘资源。启用zk服务,启用kafka服务,启用上游写入Kafka程序即可。因为存在多副本。可以进行部分分区数据删除操作。

 

参考:

kafka时间戳的详解及使用

Kafka日志清理策略,compact和delete

Kafka中数据清理、日志压缩、日志删除、保留策略

 

  • 4
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 4
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

未来在这儿

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值