Kafka笔记

最新推荐文章于 2024-07-18 18:11:28 发布

大爵爷

最新推荐文章于 2024-07-18 18:11:28 发布

阅读量149

点赞数

分类专栏： java kafka 文章标签： kafka

本文链接：https://blog.csdn.net/chenzhiqiang1018/article/details/104570820

版权

java 同时被 2 个专栏收录

12 篇文章 0 订阅

订阅专栏

kafka

1 篇文章 0 订阅

订阅专栏

@定义

1. 概述

1.1 定义

Kafka 是一个分布式的基于发布/订阅模式的消息队列(Message Queue)，主要应用于大数据实时处理领域。

1.2 消息队列好处

消息队列的好处：
1. 解耦
2. 可恢复性
3. 缓冲
4. 灵活 & 峰值处理能力
5. 异步通讯

1.3 消息队列模式

分为二种模式：
（1）点对点模式；
（2）发布/订阅模式；

（1）点对点模式：
一对一，消费者主动拉取数据，收到消息之后消息会被清除，只能发送给一个人。
在这里插入图片描述

（2）发布/订阅
一对多，消费者消费数据之后不会清除消息。

在这里插入图片描述

发布/订阅模式再分为2种：
生产者将消息推送到消费者，类似于微信公众号；另一种是消费者拉取队列里面的消息。kafka是属于后者。

拉取模式缺点：消费者需要长轮询不断的去查询队列中是否有新的消息。有了拉取，没有不拉去。

推送模式的缺点：队列推送的速度，和消费者的接受速度可能不一致，有的消费者资源浪费。导致接受消息进度不一样。

2. 架构

在这里插入图片描述
1)Producer :消息生产者，就是向 kafka broker 发消息的客户端;

2)Consumer :消息消费者，向 kafka broker 取消息的客户端;

3)Consumer Group (CG):消费者组，由多个 consumer 组成。消费者组内每个消费者负责消费不同分区的数据，一个分区只能由一个组内消费者消费;消费者组之间互不影响。所有的消费者都属于某个消费者组，即消费者组是逻辑上的一个订阅者。

最合适的是消费者组里的消费者个数和分区数是一致的；如果消费者组里的消费者个数大于分区数，就会导致有多余的消费者空闲消耗资源；

4)Broker :一台 kafka 服务器就是一个 broker。一个集群由多个 broker 组成。一个 broker 可以容纳多个 topic;

5)Topic :可以理解为一个队列，生产者和消费者面向的都是一个 topic;

6)Partition:为了实现扩展性，一个非常大的 topic 可以分布到多个 broker(即服务器)上，一个 topic 可以分为多个 partition，每个 partition 是一个有序的队列; 提高了主题的负载能力, 提高并发度;

7)Replica:副本，为保证集群中的某个节点发生故障时，该节点上的 partition 数据不丢失，且 kafka 仍然能够继续工作，kafka 提供了副本机制，一个 topic 的每个分区都有若干个副本，一个 leader 和若干个 follower；

8)leader:每个分区多个副本的“主”，生产者发送数据的对象，以及消费者消费数据的对象都是 leader；

9)follower:每个分区多个副本中的“从”，实时从 leader 中同步数据，保持和 leader 数据的同步。leader 发生故障时，某个 follower 会成为新的 follower；本质就是一个备份作用；

(10) leader和follower一定是不会再同一个机器上，因为要起到备份作用，防治宕机导致的数据丢失；

(11) zookeeper的作用：
（1）存储一些信息
（2）存储消费者消费的位置信息；消费者挂点之后从断的位置开始；
在0.9之前的版本是存在zk； 0.9及之后的版本都是存在kafka系统里面，kafka自己维护；

(12) kafka是存在磁盘中；

(13) kafka是scala写的；

3. 安装

(1) 下载安装包，解压： tar zxvf
(2) 自定义目录：
在bin文件夹的同级目录，创建文件夹：
mkdir zookeeper # zookeeper 的目录
mkdir data # 日志（数据）的文件夹
mkdir ./data/zookeeper # zookeeper的日志文件

(3) zookeeper配置：
第一步：修改config下的 zookeeper.properties：

#修改为自定义的zookeeper数据目录
dataDir=/usr/local/kafka_2.11-1.0.0/zookeeper

#修改为自定义的zookeeper日志目录
dataLogDir=/usr/local/kafka_2.11-1.0.0/data/zookeeper

#端口
clientPort=2181

#注释掉
#maxClientCnxns=0

#设置连接参数，添加如下配置
tickTime=2000　　　　#为zk的基本时间单元，毫秒
initLimit=10　　　　 #Leader-Follower初始通信时限 tickTime10
syncLimit=5　　　　　#Leader-Follower同步通信时限 tickTime5

#设置broker Id的服务地址【这个参数加上之后出错了，不确定是不是自己的原因】
server.0=172.16.10.91:2888:3888
server.1=172.16.10.92:2888:3888
server.2=172.16.10.93:2888:3888

第二步： zookeeper数据目录添加myid配置
进入到配置文件中指定的dataDir=/usr/local/kafka_2.11-1.0.0/zookeeper目录下，添加myid文件，写入服务broker.id属性值。

echo 1 > myid

(4) kafka配置：
修改server.properties文件：
第一步：修改broker.id、advertised.listeners等参数：

#broker 的全局唯一编号，不能重复
broker.id=1

#配置监听,修改为本机ip
advertised.listeners=PLAINTEXT://172.16.10.91:9092

#配置三台服务zookeeper连接地址【逗号分隔】
zookeeper.connect=172.16.10.91:2181,172.16.10.92:2181,172.16.10.93:2181

#kafka 运行日志存放路径
log.dirs=/usr/local/kafka_2.11-1.0.0/log/kafka

#topic 在当前broker上的分片个数，与broker保持一致
num.partitions=3

(5) 启动测试：
启动的时候先启动zookeeper，再启动kafka；
关闭的时候先关闭kafka，再关闭zookeeper；

启动zk
bin/zookeeper-server-start.sh config/zookeeper.properties &
启动kafka
bin/kafka-server-start.sh config/server.properties &

可以通过jps查看是否启动成功；
再集群模式下，先将每台机器的zk启动之后，再去启动kafka。

4. 命令操作

（1）创建主题

bin/kafka-topics.sh --create --zookeeper 172.23.92.39:2181,172.23.92.39:2181 --topic test --partitions 1 --replication-factor 1
–zookeeper 的参数就是配置的server文件中的zookeeper.connect参数
–replication-factor 副本数是不能大于broker（节点）数

（2）查看topic列表

bin/kafka-topics.sh --zookeeper 172.23.92.39:2181,172.23.92.39:2181 --list

（3）启动生产者

bin/kafka-console-producer.sh --broker-list 172.23.92.39:9092,172.23.92.39:9092 --topic test

（4）启动消费者

bin/kafka-console-consumer.sh --bootstrap-server 172.23.92.39:9092,172.23.92.39:9092 --topic first --from-beginning
–from-beginning 加上是从头获取，不加是从启动时获取

注意：
（1）在创建主题的时候，副本数是不能大于broker数的，即节点数。会报错。
hdfs是能这是设置最大副本数，和节点数无关。
分区数是可以多于broker数的。

（2）默认的50个分区一个副本；

大爵爷

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Kafka笔记

定义：Kafka 是一个分布式的基于发布/订阅模式的消息队列(Message Queue)，主要应用于大数据实时处理领域消息队列的好处：1. 解耦2. 可恢复性3. 缓冲4. 灵活 & 峰值处理能力5. 异步通讯消息队列的模式：1. 点对点模式：一对一，消费者主动拉取数据，收到消息之后消息会清楚。2. 发布订阅：一对多，消费者消费数据之后不会清除消息。 ...
复制链接

扫一扫