kafka笔记

kafka是什么

是一个分布式、分区的、多副本的、多订阅者,基于zookeeper协调的分布式日志系统

是一个高性能跨语言分布式发布/订阅消息队列系统。

Kafka是一种发布-订阅模式。(消息传递的主要模式:点对点传递模式、发布-订阅模式)

kafka特点

  • 提供消息持久化能力
  • 高吞吐率
  • 支持Kafka Server间的消息分区,及分布式消费,同时保证每个partition内的消息顺序传输
  • 同时支持离线数据处理和实时数据处理
  • 异步通信

两种消息传递模式比较

特点\模式

点对点

发布-订阅

1

消息持久化到一个队列

消息被持久化到一个topic

2

一条消息只能被消费一次

一条数据可以被多个消费者(订阅了topic的订阅者)消费

3

数据被消费后被立马删除

数据被消费后不会立马删除

4

即使有多个消费者同时消费数据,也能保证数据处理的顺序

保证一个Partition内的消息的有序性

kafka相关术语介绍

 

broker

topicpartitionleaderfollower
是什么Kafka 集群包含一个或多个服务器,服务器节点称为broker每条发布到Kafka集群的消息都有一个类别,这个类别被称为Topictopic中的数据分割为一个或多个partition(分区)每个partition有多个副本,其中有且仅有一个作为LeaderFollower跟随Leader
作用broker存储topic的数据消费者订阅topic后可以消费该topic中所有的数据将topic内的数据分布到集群,防止所有数据屯在一个broker造车性能瓶颈,实现水平扩展负责数据的读写的partitionFollower与Leader保持数据同步。如果Leader失效,则从Follower中选举出一个新的Leader
其他
  • 若某topic有N个partition,集群有(N+M)个broker,那么其中有N个broker存储该topic的一个partition,剩下的M个broker不存储该topic的partition数据。
  • 若某topic有N个partition,集群中broker数目少于N个,那么一个broker存储该topic的一个或多个partition。(尽量避免这种情况的发生,这种情况容易导致Kafka集群数据不均衡)
物理上不同Topic的消息分开存储
  • partition中的数据是有序的,若topic有多个partition,消费数据时就不能保证数据的顺序。
  • 在需要严格保证消息的消费顺序的场景下,需要将partition数目设为1。

 当Follower与Leader挂掉、卡住或者同步太慢,leader会把这个follower从“in sync replicas”(ISR)列表中删除,重新创建一个Follower。

=

### 尚硅谷 Kafka 学习笔记 #### 创建 Kafka 生产者并发送消息 为了创建一个简单的 Kafka 生产者并向指定主题发送消息,在命令行工具中可以执行如下操作。通过 `bin/kafka-console-producer.sh` 脚本启动生产者客户端,并指定了引导服务器地址以及目标主题名称[^1]。 ```bash [atguigu@hadoop102 kafka]$ bin/kafka-console-producer.sh --bootstrap-server hadoop102:9092 --topic first > hello ``` 此命令允许用户手动输入要发布的消息内容,每条新消息以回车键结束提交给集群处理。 #### 修改消费者配置文件设置分组ID 对于希望自定义消费逻辑的应用程序来说,调整消费者的配置参数是非常重要的一步。具体而言,可以通过编辑 `/opt/module/kafka/config/consumer.properties` 文件内的 `group.id` 属性来设定唯一的消费者组标识符[^4]。 ```properties [atguigu@hadoop103 config]$ vi consumer.properties group.id=atguigu ``` 这里展示了如何更改默认值为特定字符串(如 "atguigu"),从而确保不同实例之间不会相互干扰。 #### 实现自定义分区器 当业务需求涉及到更复杂的路由策略时,则可能需要用到自定义的 Partitioner 类型。下面给出了一种基于关键字匹配决定消息所属分区的方法示例代码片段[^5]: ```java public class MyPartitioner implements Partitioner { @Override public int partition(String topic, Object key, byte[] keyBytes, Object value, byte[] valueBytes, Cluster cluster) { String inputValue = (value != null && !"".equals(value)) ? value.toString() : ""; if ("hello".contains(inputValue)){ return 1; } else{ return 0; } } @Override public void close(){} @Override public void configure(Map<String, ?> configs){} } ``` 这段 Java 程序实现了 `Partitioner` 接口,并覆盖了其抽象方法 `partition()` 来判断传入的消息体是否包含预设关键词 `"hello"`;如果条件成立则返回整数 `1` 表明该记录应分配至编号为 `1` 的物理分区上,反之亦然。 #### 关于日志与数据存储机制的理解 值得注意的是,Kafka 中的日志目录实际上是指向实际保存二进制编码后的消息集合的位置。由于这些对象经过序列化过程变得难以直观理解,因此建议开发者熟悉相关概念以便更好地管理和维护系统性能[^2]。 另外,关于偏移量 Offset 的管理方式也值得深入探讨。每个存储单元都会依据首次出现位置获得独一无二的名字格式——即形似 `xxxxxx.kafka` 这样的文件名模式,其中 x 可能代表任意长度但始终递增的一串数字字符[^3]。
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值