漫游Kafka之过期数据清理

Kafka将数据持久化到了硬盘上,允许你配置一定的策略对数据清理,清理的策略有两个,删除和压缩。

数据清理的方式

删除

log.cleanup.policy=delete启用删除策略
直接删除,删除后的消息不可恢复。可配置以下两个策略:
清理超过指定时间清理:  
log.retention.hours=16
超过指定大小后,删除旧的消息:
log.retention.bytes=1073741824
为了避免在删除时阻塞读操作,采用了copy-on-write形式的实现,删除操作进行时,读取操作的二分查找功能实际是在一个静态的快照副本上进行的,这类似于Java的CopyOnWriteArrayList。

压缩

将数据压缩,只保留每个key最后一个版本的数据。
首先在broker的配置中设置log.cleaner.enable=true启用cleaner,这个默认是关闭的。
在topic的配置中设置log.cleanup.policy=compact启用压缩策略。

压缩策略的细节


如上图,在整个数据流中,每个Key都有可能出现多次,压缩时将根据Key将消息聚合,只保留最后一次出现时的数据。这样,无论什么时候消费消息,都能拿到每个Key的最新版本的数据。
压缩后的offset可能是不连续的,比如上图中没有5和7,因为这些offset的消息被merge了,当从这些offset消费消息时,将会拿到比这个offset大的offset对应的消息,比如,当试图获取offset为5的消息时,实际上会拿到offset为6的消息,并从这个位置开始消费。
这种策略只适合特俗场景,比如消息的key是用户ID,消息体是用户的资料,通过这种压缩策略,整个消息集里就保存了所有用户最新的资料。
压缩策略支持删除,当某个Key的最新版本的消息没有内容时,这个Key将被删除,这也符合以上逻辑。


Kafka视频教程同步首发,欢迎观看!



  • 6
    点赞
  • 19
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Kafka中有两种自动清理的配置:日志压缩(Log compaction)和日志清理(Log cleanup)。 1. 日志压缩(Log compaction) 日志压缩是Kafka中的一种自动清理机制,它可以保留每个键的最新消息,并删除旧的消息。这种机制在处理日志数据时尤其有用,因为它可以使得每个键只保留最新的状态,而不需要保留所有历史状态。这样可以大大减少日志的存储空间。 要启用日志压缩,需要在创建主题时设置`cleanup.policy=compact`,例如: ``` bin/kafka-topics.sh --create --zookeeper localhost:2181 --replication-factor 1 --partitions 1 --topic my-topic --config cleanup.policy=compact ``` 2. 日志清理(Log cleanup) 日志清理Kafka中的另一种自动清理机制,它可以删除旧的消息,以释放磁盘空间。可以通过以下两个参数来配置日志清理: - `log.retention.ms`:指定消息在日志中保留的时间,超过这个时间的消息将被删除。 - `log.retention.bytes`:指定日志文件在磁盘上占用的最大空间,当文件大小超过这个值时,旧的消息将被删除。 这些参数可以在broker或主题级别进行配置。例如,在创建主题时,可以设置`log.retention.ms=86400000`,表示消息在日志中保留一天。可以通过以下命令进行配置: ``` bin/kafka-topics.sh --create --zookeeper localhost:2181 --replication-factor 1 --partitions 1 --topic my-topic --config retention.ms=86400000 ``` 需要注意的是,日志清理可能会导致某些消息被删除,因此在设置这些参数时需要谨慎考虑。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值