Kafka笔记

1 篇文章 0 订阅

@定义

1. 概述

1.1 定义

Kafka 是一个分布式基于发布/订阅模式消息队列(Message Queue),主要应用于大数据实时处理领域。

1.2 消息队列好处

消息队列的好处:
1. 解耦
2. 可恢复性
3. 缓冲
4. 灵活 & 峰值处理能力
5. 异步通讯

1.3 消息队列模式

分为二种模式:
(1) 点对点模式;
(2)发布/订阅模式;


(1)点对点模式
一对一,消费者主动拉取数据,收到消息之后消息会被清除,只能发送给一个人。
在这里插入图片描述

(2)发布/订阅
一对多,消费者消费数据之后不会清除消息。

在这里插入图片描述

发布/订阅模式再分为2种:
生产者将消息推送到消费者,类似于微信公众号;另一种是消费者拉取队列里面的消息。kafka是属于后者

拉取模式缺点:消费者需要长轮询不断的去查询队列中是否有新的消息。有了拉取,没有不拉去。

推送模式的缺点:队列推送的速度,和消费者的接受速度可能不一致,有的消费者资源浪费。导致接受消息进度不一样。

2. 架构

在这里插入图片描述
1)Producer :消息生产者,就是向 kafka broker 发消息的客户端;

2)Consumer :消息消费者,向 kafka broker 取消息的客户端;

3)Consumer Group (CG):消费者组,由多个 consumer 组成。消费者组内每个消费者负 责消费不同分区的数据,一个分区只能由一个组内消费者消费;消费者组之间互不影响。所 有的消费者都属于某个消费者组,即消费者组是逻辑上的一个订阅者。

最合适的是消费者组里的消费者个数和分区数是一致的;如果消费者组里的消费者个数大于分区数,就会导致有多余的消费者空闲消耗资源;

4)Broker :一台 kafka 服务器就是一个 broker。一个集群由多个 broker 组成。一个 broker 可以容纳多个 topic;

5)Topic :可以理解为一个队列,生产者和消费者面向的都是一个 topic;

6)Partition:为了实现扩展性,一个非常大的 topic 可以分布到多个 broker(即服务器)上, 一个 topic 可以分为多个 partition,每个 partition 是一个有序的队列; 提高了主题的负载能力, 提高并发度;

7)Replica:副本,为保证集群中的某个节点发生故障时,该节点上的 partition 数据不丢失,且 kafka 仍然能够继续工作,kafka 提供了副本机制,一个 topic 的每个分区都有若干个副本, 一个 leader 和若干个 follower;

8)leader:每个分区多个副本的“主”,生产者发送数据的对象,以及消费者消费数据的对 象都是 leader;

9)follower:每个分区多个副本中的“从”,实时从 leader 中同步数据,保持和 leader 数据 的同步。leader 发生故障时,某个 follower 会成为新的 follower;本质就是一个备份作用;

(10) leader和follower一定是不会再同一个机器上, 因为要起到备份作用,防治宕机导致的数据丢失;

(11) zookeeper的作用:
(1)存储一些信息
(2)存储消费者消费的位置信息;消费者挂点之后从断的位置开始;
在0.9之前的版本是存在zk; 0.9及之后的版本都是存在kafka系统里面,kafka自己维护;

(12) kafka是存在磁盘中;

(13) kafka是scala写的;

3. 安装

(1) 下载安装包,解压: tar zxvf
(2) 自定义目录:
在bin文件夹的同级目录,创建文件夹:
mkdir zookeeper # zookeeper 的目录
mkdir data # 日志(数据)的 文件夹
mkdir ./data/zookeeper # zookeeper的日志文件

(3) zookeeper配置:
第一步:修改config下的 zookeeper.properties:

#修改为自定义的zookeeper数据目录
dataDir=/usr/local/kafka_2.11-1.0.0/zookeeper

#修改为自定义的zookeeper日志目录
dataLogDir=/usr/local/kafka_2.11-1.0.0/data/zookeeper

#端口
clientPort=2181

#注释掉
#maxClientCnxns=0


#设置连接参数,添加如下配置
tickTime=2000    #为zk的基本时间单元,毫秒
initLimit=10     #Leader-Follower初始通信时限 tickTime10
syncLimit=5     #Leader-Follower同步通信时限 tickTime
5

#设置broker Id的服务地址【这个参数加上之后出错了,不确定是不是自己的原因】
server.0=172.16.10.91:2888:3888
server.1=172.16.10.92:2888:3888
server.2=172.16.10.93:2888:3888

第二步: zookeeper数据目录添加myid配置
进入到配置文件中指定的dataDir=/usr/local/kafka_2.11-1.0.0/zookeeper目录下,添加myid文件,写入服务broker.id属性值。

echo 1 > myid

(4) kafka配置:
修改server.properties文件:
第一步:修改broker.id、advertised.listeners等参数:

#broker 的全局唯一编号,不能重复
broker.id=1

#配置监听,修改为本机ip
advertised.listeners=PLAINTEXT://172.16.10.91:9092

#配置三台服务zookeeper连接地址 【逗号分隔】
zookeeper.connect=172.16.10.91:2181,172.16.10.92:2181,172.16.10.93:2181

#kafka 运行日志存放路径
log.dirs=/usr/local/kafka_2.11-1.0.0/log/kafka

#topic 在当前broker上的分片个数,与broker保持一致
num.partitions=3

(5) 启动测试:
启动的时候先启动zookeeper,再启动kafka;
关闭的时候先关闭kafka,再关闭zookeeper;

启动zk
bin/zookeeper-server-start.sh config/zookeeper.properties &
启动kafka
bin/kafka-server-start.sh config/server.properties &

可以通过jps查看是否启动成功;
再集群模式下, 先将每台机器的zk启动之后,再去启动kafka。


4. 命令操作

(1)创建主题

bin/kafka-topics.sh --create --zookeeper 172.23.92.39:2181,172.23.92.39:2181 --topic test --partitions 1 --replication-factor 1
–zookeeper 的参数就是配置的server文件中的zookeeper.connect参数
–replication-factor 副本数是不能大于broker(节点)数

(2)查看topic列表

bin/kafka-topics.sh --zookeeper 172.23.92.39:2181,172.23.92.39:2181 --list

(3)启动生产者

bin/kafka-console-producer.sh --broker-list 172.23.92.39:9092,172.23.92.39:9092 --topic test

(4)启动消费者

bin/kafka-console-consumer.sh --bootstrap-server 172.23.92.39:9092,172.23.92.39:9092 --topic first --from-beginning
–from-beginning 加上是从头获取,不加是从启动时获取

注意:
(1) 在创建主题的时候,副本数是不能大于broker数的,即节点数。会报错。
hdfs是能这是设置最大副本数,和节点数无关。
分区数是可以多于broker数的。

(2) 默认的50个分区一个副本;

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值