@定义
1. 概述
1.1 定义
Kafka 是一个分布式的基于发布/订阅模式的消息队列(Message Queue),主要应用于大数据实时处理领域。
1.2 消息队列好处
消息队列的好处:
1. 解耦
2. 可恢复性
3. 缓冲
4. 灵活 & 峰值处理能力
5. 异步通讯
1.3 消息队列模式
分为二种模式:
(1) 点对点模式;
(2)发布/订阅模式;
(1)点对点模式:
一对一,消费者主动拉取数据,收到消息之后消息会被清除,只能发送给一个人。
(2)发布/订阅
一对多,消费者消费数据之后不会清除消息。
发布/订阅模式再分为2种:
生产者将消息推送到消费者,类似于微信公众号;另一种是消费者拉取队列里面的消息。kafka是属于后者。
拉取模式缺点:消费者需要长轮询不断的去查询队列中是否有新的消息。有了拉取,没有不拉去。
推送模式的缺点:队列推送的速度,和消费者的接受速度可能不一致,有的消费者资源浪费。导致接受消息进度不一样。
2. 架构
1)Producer :消息生产者,就是向 kafka broker 发消息的客户端;
2)Consumer :消息消费者,向 kafka broker 取消息的客户端;
3)Consumer Group (CG):消费者组,由多个 consumer 组成。消费者组内每个消费者负 责消费不同分区的数据,一个分区只能由一个组内消费者消费;消费者组之间互不影响。所 有的消费者都属于某个消费者组,即消费者组是逻辑上的一个订阅者。
最合适的是消费者组里的消费者个数和分区数是一致的;如果消费者组里的消费者个数大于分区数,就会导致有多余的消费者空闲消耗资源;
4)Broker :一台 kafka 服务器就是一个 broker。一个集群由多个 broker 组成。一个 broker 可以容纳多个 topic;
5)Topic :可以理解为一个队列,生产者和消费者面向的都是一个 topic;
6)Partition:为了实现扩展性,一个非常大的 topic 可以分布到多个 broker(即服务器)上, 一个 topic 可以分为多个 partition,每个 partition 是一个有序的队列; 提高了主题的负载能力, 提高并发度;
7)Replica:副本,为保证集群中的某个节点发生故障时,该节点上的 partition 数据不丢失,且 kafka 仍然能够继续工作,kafka 提供了副本机制,一个 topic 的每个分区都有若干个副本, 一个 leader 和若干个 follower;
8)leader:每个分区多个副本的“主”,生产者发送数据的对象,以及消费者消费数据的对 象都是 leader;
9)follower:每个分区多个副本中的“从”,实时从 leader 中同步数据,保持和 leader 数据 的同步。leader 发生故障时,某个 follower 会成为新的 follower;本质就是一个备份作用;
(10) leader和follower一定是不会再同一个机器上, 因为要起到备份作用,防治宕机导致的数据丢失;
(11) zookeeper的作用:
(1)存储一些信息
(2)存储消费者消费的位置信息;消费者挂点之后从断的位置开始;
在0.9之前的版本是存在zk; 0.9及之后的版本都是存在kafka系统里面,kafka自己维护;
(12) kafka是存在磁盘中;
(13) kafka是scala写的;
3. 安装
(1) 下载安装包,解压: tar zxvf
(2) 自定义目录:
在bin文件夹的同级目录,创建文件夹:
mkdir zookeeper # zookeeper 的目录
mkdir data # 日志(数据)的 文件夹
mkdir ./data/zookeeper # zookeeper的日志文件
(3) zookeeper配置:
第一步:修改config下的 zookeeper.properties:
#修改为自定义的zookeeper数据目录
dataDir=/usr/local/kafka_2.11-1.0.0/zookeeper
#修改为自定义的zookeeper日志目录
dataLogDir=/usr/local/kafka_2.11-1.0.0/data/zookeeper
#端口
clientPort=2181
#注释掉
#maxClientCnxns=0
#设置连接参数,添加如下配置
tickTime=2000 #为zk的基本时间单元,毫秒
initLimit=10 #Leader-Follower初始通信时限 tickTime10
syncLimit=5 #Leader-Follower同步通信时限 tickTime5
#设置broker Id的服务地址【这个参数加上之后出错了,不确定是不是自己的原因】
server.0=172.16.10.91:2888:3888
server.1=172.16.10.92:2888:3888
server.2=172.16.10.93:2888:3888
第二步: zookeeper数据目录添加myid配置
进入到配置文件中指定的dataDir=/usr/local/kafka_2.11-1.0.0/zookeeper目录下,添加myid文件,写入服务broker.id属性值。
echo 1 > myid
(4) kafka配置:
修改server.properties文件:
第一步:修改broker.id、advertised.listeners等参数:
#broker 的全局唯一编号,不能重复
broker.id=1
#配置监听,修改为本机ip
advertised.listeners=PLAINTEXT://172.16.10.91:9092
#配置三台服务zookeeper连接地址 【逗号分隔】
zookeeper.connect=172.16.10.91:2181,172.16.10.92:2181,172.16.10.93:2181
#kafka 运行日志存放路径
log.dirs=/usr/local/kafka_2.11-1.0.0/log/kafka
#topic 在当前broker上的分片个数,与broker保持一致
num.partitions=3
(5) 启动测试:
启动的时候先启动zookeeper,再启动kafka;
关闭的时候先关闭kafka,再关闭zookeeper;
启动zk
bin/zookeeper-server-start.sh config/zookeeper.properties &
启动kafka
bin/kafka-server-start.sh config/server.properties &
可以通过jps查看是否启动成功;
再集群模式下, 先将每台机器的zk启动之后,再去启动kafka。
4. 命令操作
(1)创建主题
bin/kafka-topics.sh --create --zookeeper 172.23.92.39:2181,172.23.92.39:2181 --topic test --partitions 1 --replication-factor 1
–zookeeper 的参数就是配置的server文件中的zookeeper.connect参数
–replication-factor 副本数是不能大于broker(节点)数
(2)查看topic列表
bin/kafka-topics.sh --zookeeper 172.23.92.39:2181,172.23.92.39:2181 --list
(3)启动生产者
bin/kafka-console-producer.sh --broker-list 172.23.92.39:9092,172.23.92.39:9092 --topic test
(4)启动消费者
bin/kafka-console-consumer.sh --bootstrap-server 172.23.92.39:9092,172.23.92.39:9092 --topic first --from-beginning
–from-beginning 加上是从头获取,不加是从启动时获取
注意:
(1) 在创建主题的时候,副本数是不能大于broker数的,即节点数。会报错。
hdfs是能这是设置最大副本数,和节点数无关。
分区数是可以多于broker数的。
(2) 默认的50个分区一个副本;