[Logstash-input-kafka] 使用详解

最新推荐文章于 2024-04-07 16:02:28 发布

weixin_33904756

最新推荐文章于 2024-04-07 16:02:28 发布

阅读量1.7k

点赞数

文章标签：大数据 python

原文链接：https://my.oschina.net/u/2000675/blog/893390

版权

2019独角兽企业重金招聘Python工程师标准>>>

配置

input {
kafka {
  zk_connect => "localhost:2181"
  group_id => "logstash"
  topic_id => "test"
  reset_beginning => false # boolean (optional)， default: false
  consumer_threads => 5  # number (optional)， default: 1
  decorate_events => true # boolean (optional)， default: false
  }
}

参数解释

group_id
消费者分组，可以通过组 ID 去指定，不同的组之间消费是相互不受影响的，相互隔离。
topic_id
指定消费话题，也是必填项目，指定消费某个 topic ，这个其实就是订阅某个主题，然后去消费。
reset_beginning
logstash 启动后从什么位置开始读取数据，默认是结束位置，也就是说 logstash 进程会以从上次读取结束时的偏移量开始继续读取，如果之前没有消费过，那么就开始从头读取.如果你是要导入原有数据，把这个设定改成 "true"， logstash 进程就从头开始读取.有点类似 cat ，但是读到最后一行不会终止，而是变成 tail -F ，继续监听相应数据。
decorate_events
在输出消息的时候会输出自身的信息包括:消费消息的大小， topic 来源以及 consumer 的 group 信息。
rebalance_max_retries
当有新的 consumer(logstash) 加入到同一 group 时，将会 reblance ，此后将会有partitions 的消费端迁移到新的 consumer 上，如果一个 consumer 获得了某个partition 的消费权限，那么它将会向 zookeeper 注册， Partition Owner registry 节点信息，但是有可能此时旧的 consumer 尚没有释放此节点，此值用于控制，注册节点的重试次数。
consumer_timeout_ms
指定时间内没有消息到达就抛出异常，一般不需要改。

注意
想要使用多个 logstash 端协同消费同一个 topic 的话，那么需要把两个或是多个 logstash 消费端配置成相同的 group_id 和 topic_id ，但是前提是要把相应的 topic 分多个 partitions (区) ，多个消费者消费是无法保证消息的消费顺序性的。
这里解释下，为什么要分多个 partitions(区) ， kafka 的消息模型是对 topic 分区以达到分布式效果。每个 topic 下的不同的 partitions (区) 只能有一个 Owner 去消费。所以只有多个分区后才能启动多个消费者，对应不同的区去消费。其中协调消费部分是由 server 端协调而成。不必使用者考虑太多。只是消息的消费则是无序的。
总结:保证消息的顺序，那就用一个 partition 。 kafka 的每个 partition 只能同时被同一个 group 中的一个 consumer 消费。

转载于:https://my.oschina.net/u/2000675/blog/893390