kafka是如何清理过期数据的?

Kafka 将数据持久化到了硬盘上,允许你配置一定的策略对数据清理,清理的策略有两个,删除和压缩。

数据清理的方式

删除

log.cleanup.policy=delete 启用删除策略
直接删除,删除后的消息不可恢复。可配置以下两个策略:
清理超过指定时间清理:  
log.retention.hours=16
超过指定大小后,删除旧的消息:
log.retention.bytes=1073741824
为了避免在删除时阻塞读操作,采用了 copy-on-write 形式的实现,删除操作进行时,读取操作的二分查找功能实际是在一个静态的快照副本上进行的,这类似于 Java 的 CopyOnWriteArrayList。

压缩

将数据压缩,只保留每个 key 最后一个版本的数据。
首先在 broker 的配置中设置 log.cleaner.enable=true 启用 cleaner,这个默认是关闭的。
在 topic 的配置中设置 log.cleanup.policy=compact 启用压缩策略。

压缩策略的细节

如上图,在整个数据流中,每个 Key 都有可能出现多次,压缩时将根据 Key 将消息聚合,只保留最后一次出现时的数据。这样,无论什么时候消费消息,都能拿到每个 Key 的最新版本的数据。
压缩后的 offset 可能是不连续的,比如上图中没有 5 和 7,因为这些 offset 的消息被 merge 了,当从这些 offset 消费消息时,将会拿到比这个 offset 大的 offset 对应的消息,比如,当试图获取 offset 为 5 的消息时,实际上会拿到 offset 为 6 的消息,并从这个位置开始消费。
这种策略只适合特俗场景,比如消息的 key 是用户 ID,消息体是用户的资料,通过这种压缩策略,整个消息集里就保存了所有用户最新的资料。
压缩策略支持删除,当某个 Key 的最新版本的消息没有内容时,这个 Key 将被删除,这也符合以上逻辑。

本文转载自:http://blog.csdn.net/honglei915/article/details/49683065

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
要消费远程 Kafka 服务器上的数据,你需要使用 Kafka 客户端来进行消费。以下是使用 Java 客户端消费远程 Kafka 服务器数据的基本步骤: 1. 首先,确保你的项目中已添加 Kafka 客户端的依赖。如果你使用 Maven,可以在 `pom.xml` 文件中添加以下依赖: ```xml <dependency> <groupId>org.apache.kafka</groupId> <artifactId>kafka-clients</artifactId> <version>2.8.0</version> </dependency> ``` 2. 创建 Kafka 消费者配置。配置包括 Kafka 服务器的地址和端口,以及其他可选配置项,例如消费者组 ID、自动提交偏移量等。以下是一个示例: ```java Properties props = new Properties(); props.put("bootstrap.servers", "remote-kafka-server:9092"); props.put("group.id", "my-consumer-group"); props.put("enable.auto.commit", "true"); props.put("auto.commit.interval.ms", "1000"); ``` 3. 创建 Kafka 消费者实例,并订阅需要消费的主题(topic): ```java KafkaConsumer<String, String> consumer = new KafkaConsumer<>(props); consumer.subscribe(Arrays.asList("my-topic")); ``` 4. 开始消费消息。使用一个循环来不断地拉取和处理消息: ```java while (true) { ConsumerRecords<String, String> records = consumer.poll(Duration.ofMillis(100)); for (ConsumerRecord<String, String> record : records) { // 处理消息 System.out.println("Received message: " + record.value()); } } ``` 这是一个简单的示例,你可以根据实际需求进行更复杂的处理。记得在不需要时关闭消费者连接,调用 `consumer.close()` 方法。 使用上述步骤,你可以通过 Kafka 客户端消费远程 Kafka 服务器上的数据。确保在配置中提供正确的服务器地址和端口,并订阅正确的主题。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值