Hadoop生态圈(九):kafka

本文详细介绍了Kafka,一个分布式消息队列系统,包括其作为消息队列的作用、为何需要消息队列、Kafka的概述、架构及组件。文中还涵盖了Kafka的集群部署步骤、命令行操作,以及生产者和消费者的API实战,强调了Kafka的高通量、低延迟特性。此外,文章还探讨了Kafka的拦截器原理和Flume与Kafka的集成,提供了丰富的实践案例。
摘要由CSDN通过智能技术生成

目录

1  Kafka概述

1.1 消息队列

1.2 为什么需要消息队列

1.3 什么是Kafka

1.4 Kafka架构

2 Kafka集群部署

2.1 环境准备

2.1.1 集群规划

2.1.2 下载

2.2 Kafka集群部署

2.3 Kafka命令行操作

3 Kafka工作流程分析

3.1 Kafka生产过程分析

3.1.1 写入方式

3.1.2 分区(Partition)

3.1.3 副本(Replication)

3.1.4 写入流程

3.2 Broker 保存消息

3.2.1 存储方式

3.2.2 存储策略(消息删除策略)

3.3 Kafka消费过程分析

3.3.1 高级API

3.3.2 低级API[了解]

3.3.3 消费者组

3.3.4 消费方式

3.3.5 消费者组案例

4 Kafka的API实战

4.1 环境准备

4.2 Kafka生产者javaAPI

4.2.1 创建生产者

4.2.2  创建带回调函数的生产者

4.2.3 自定以分区生产者

4.3 Kafka消费者javaAPI

4.3.1 高级API

4.3.2 低级API

5 kafka product拦截器(interceptor)

5.1 拦截器原理

5.2 拦截器案例

6 Flume与kafka集成


1  Kafka概述

1.1 消息队列

 

(1)点对点模式(一对一,消费者主动拉取数据,消息收到后消息清除)

点对点模型通常是一个基于拉取或者轮询的消息传送模型,这种模型从队列中请求信息,而不是将消息推送到客户端。这个模型的特点是发送到队列的消息被一个且只有一个接收者接收处理,即使有多个消息监听者也是如此

(2)发布/订阅模式(一对多,数据生产后,推送给所有订阅者)

发布订阅模型则是一个基于推送的消息传送模型。发布订阅模型可以有多种不同的订阅者,临时订阅者只在主动监听主题时才接收消息,而持久订阅者则监听主题的所有消息,即使当前订阅者不可用,处于离线状态。

1.2 为什么需要消息队列

1)解耦:

允许你独立的扩展或修改两边的处理过程,只要确保它们遵守同样的接口约束。

2)冗余:

消息队列把数据进行持久化直到它们已经被完全处理,通过这一方式规避了数据丢失风险。许多消息队列所采用的"插入-获取-删除"范式中,在把一个消息从队列中删除之前,需要你的处理系统明确的指出该消息已经被处理完毕,从而确保你的数据被安全的保存直到你使用完毕。

3)扩展性:

因为消息队列解耦了你的处理过程,所以增大消息入队和处理的频率是很容易的,只要另外增加处理过程即可。

4)灵活性&峰值处理能力:

在访问量剧增的情况下,应用仍然需要继续发挥作用,但是这样的突发流量并不常见。如果为以能处理这类峰值访问为标准来投入资源随时待命无疑是巨大的浪费。使用消息队列能够使关键组件顶住突发的访问压力,而不会因为突发的超负荷的请求而完全崩溃。

5)可恢复性:

系统的一部分组件失效时,不会影响到整个系统。消息队列降低了进程间的耦合度,所以即使一个处理消息的进程挂掉,加入队列中的消息仍然可以在系统恢复后被处理。

6)顺序保证:

在大多使用场景下,数据处理的顺序都很重要。大部分消息队列本来就是排序的,并且能保证数据会按照特定的顺序来处理。(Kafka保证一个Partition内的消息的有序性)

7)缓冲:

有助于控制和优化数据流经过系统的速度,解决生产消息和消费消息的处理速度不一致的情况

8)异步通信:

很多时候,用户不想也不需要立即处理消息。消息队列提供了异步处理机制,允许用户把一个消息放入队列,但并不立即处理它。想向队列中放入多少消息就放多少,然后在需要的时候再去处理它们。

1.3 什么是Kafka

一个开源消息系统,一个分布式消息队列;目的提供一个统一、高通量、低等待的平台;依赖于Zookeeper来保证系统的可用性

在流式计算中。Kafka一般用于缓存数据,Storm或者spark通过消费Kafka的数据进行计算。

1)Apache Kafka是一个开源消息系统,由Scala写成。是由Apache软件基金会开发的一个开源消息系统项目。

2)Kafka最初是由LinkedIn公司开发,并于2011年初开源。2012年10月从Apache Incubator毕业。该项目的目标是为处理实时数据提供一个统一、高通量、低等待的平台。

3)Kafka是一个分布式消息队列Kafka对消息保存时根据Topic进行归类,发送消息者称为Producer,消息接受者称为Consumer,此外kafka集群有多个kafka实例组成,每个实例(server)称为broker。

4)无论是kafka集群,还是consumer都依赖于zookeeper集群保存一些meta信息,来保证系统可用性。

1.4 Kafka架构

Kafka整体架构:

 

Kafka详细架构:

组件介绍:

1)Producer :消息生产者,就是向kafka broker发消息的客户端;

2)Consumer :消息消费者,向kafka broker取消息的客户端;

3)Topic :可以理解为一个队列(就是同一个业务的数据放在一个topic下)

4) Consumer Group (CG):这是kafka用来实现一个topic消息的广播(发给所有的consumer)和单播(发给任意一个consumer)的手段。一个topic可以有多个CG。topic的消息会复制(不是真的复制,是概念上的)到所有的CG,但每个partion只会把消息发给该CG中的一个consumer。如果需要实现广播,只要每个consumer有一个独立的CG就可以了。要实现单播只要所有的consumer在同一个CG。用CG还可以将consumer进行自由的分组而不需要多次发送消息到不同的topic;

5)Broker :一台kafka服务器就是一个broker。一个集群由多个broker组成。一个broker可以容纳多个topic;

6)Partition:为了实现扩展性,一个非常大的topic可以分布到多个broker(即服务器)上,一个topic可以分为多个partition,每个partition是一个有序的队列。partition中的每条消息都会被分配一个有序的id(offset)。kafka只保证按一个partition中的顺序将消息发给consumer,不保证一个topic的整体(多个partition间)的顺序;

7)Offset:偏移量。

2 Kafka集群部署

2.1 环境准备

2.1.1 集群规划

hadoop101

hadoop102 hadoop103
zk zk zk
Kafka Kafka Kafka

2.1.2 下载

官网下载:http://kafka.apache.org/downloads.html

网盘链接:请点这里     提取码:lm8k 

 

2.2 Kafka集群部署

1)解压安装包

[root@hadoop101 software]$ tar -zxvf kafka_2.11-0.11.0.0.tgz -C /opt/module/

2)修改解压后的文件名称

[root@hadoop101 module]$ mv kafka_2.11-0.11.0.0/ kafka

3)在/opt/module/kafka目录下创建logs文件夹

[root@hadoop101 kafka]$ mkdir logs

4)修改配置文件

[root@hadoop101 kafka]$ cd config/

[root@hadoop101 config]$ vim server.properties

#broker全局唯一编号,不能重复

broker.id=1

#删除topic功能使能

delete.topic.enable=true

#kafka运行日志存放的路径

log.dirs=/opt/module/kafka/logs

#配置连接Zookeeper集群地址

zookeeper.connect=hadoop101:2181,hadoop102:2181,hadoop103:2181

5)分发安装包

6)分别在hadoop102和hadoop103上修改配置文件/opt/module/kafka/config/server.properties中的broker.id=2、broker.id=3

注:broker.id不得重复

7)启动集群

依次在hadoop101、hadoop102、hadoop103节点上启动kafka

[root@hadoop101 kafka]$ bin/kafka-server-start.sh config/server.properties &

[root@hadoop102 kafka]$ bin/kafka-server-start.sh config/server.properties &

[root@hadoop103 kafka]$ bin/kafka-server-start.sh config/server.properties &

8)关闭集群

[root@hadoop101 kafka]$ bin/kafka-server-stop.sh stop

[root@hadoop102 kafka]$ bin/kafka-server-stop.sh stop

[root@hadoop103 kafka]$ bin/kafka-server-stop.sh stop

2.3 Kafka命令行操作

1)查看当前服务器中的所有topic

[root@hadoop101 kafka]$ bin/kafka-topics.sh --zookeeper hadoop101:2181 --list

2)创建topic

[root@hadoop101 kafka]$ bin/kafka-topics.sh --zookeeper hadoop101:2181 --create --replication-factor 3 --partitions 1 --topic first

选项说明:

--topic 定义topic名

--replication-factor  定义副本数

--partitions  定义分区数

3)删除topic

[root@hadoop101 kafka]$ bin/kafka-topics.sh --zookeeper hadoop101:2181 --delete --topic first

需要server.properties中设置delete.topic.enable=true否则只是标记删除或者直接重启。

4)发送消息

创建second主题

bin/kafka-topics.sh --zookeeper hadoop101:2181 --create --replication-factor 3 --partitions 3 --topic second

[root@hadoop101 kafka]$ bin/kafka-console-producer.sh --broker-list hadoop101:9092 --topic second

>hello world

>bigdata  bigdata

5)消费消息

[root@hadoop102 kafka]$ bin/kafka-console-consumer.sh --zookeeper hadoop101:2181 --topic second --from-beginning

--from-beginning会把first主题中以往所有的数据都读取出来。根据业务场景选择是否增加该配置。

6)查看某个Topic的详情

[root@hadoop101 kafka]$ bin/kafka-topics.sh --zookeeper hadoop101:2181 --describe --topic second

  • 1
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值