Kafka：概述、体系架构、Kafka集群部署、命令行操作、工作流程

最新推荐文章于 2024-07-04 23:05:10 发布

瞧德

最新推荐文章于 2024-07-04 23:05:10 发布

阅读量2.5k

点赞数 2

分类专栏： kafka 文章标签： kafka

本文链接：https://blog.csdn.net/qq_39192827/article/details/99339001

版权

Kafka是一个分布式消息系统，提供实时数据流处理。它包含消息、主题、生产者、消费者、消费者组和分区等核心概念。Kafka通过消息队列实现异步处理，增强系统扩展性和容错性。Kafka集群部署涉及配置多个broker，每个topic可分多个分区，复本用于保证数据安全性。消费者通过消费者组以并行方式处理消息，保证消息的顺序处理。

摘要由CSDN通过智能技术生成

1）消息 / 键 / 批次 2）Topic

3）Producer 4）Consumer

5）Consumer Group 6）Partition

1、Kafka(0.10.0.1)概述

1.1、消息队列JMS

1）点对点模式（一对一，消费者主动拉取数据，消息收到后消息清除）
点对点模型通常是一个基于拉取或者轮询的消息传送模型，这种模型从队列中请求信息，而不是将消息推送到客户端。这个模型的特点是发送到队列的消息被一个且只有一个接收者接收处理，即使有多个消息监听者也是如此。

2）发布/订阅模式（一对多，数据生产后，推送给所有订阅者）
发布订阅模型则是一个基于推送的消息传送模型。发布订阅模型可以有多种不同的订阅者，临时订阅者只在主动监听主题时才接收消息，而持久订阅者则监听主题的所有消息，即使当前订阅者不可用，处于离线状态。

1.2、消息队列的优点

1）异步处理
很多时候，用户不想也不需要立即处理消息。消息队列提供了异步处理机制，允许用户把一个消息放入队列，但并不立即处理它。想向队列中放入多少消息就放多少，然后在需要的时候再去处理它们。

2）应用解耦/扩展性/可恢复性
允许独立地扩展或修改两边的处理过程，只要确保它们遵守同样的接口约束；
因为消息队列解耦了处理过程，所以增大消息入队和处理的频率是很容易的，只要另外增加处理过程即可；
系统的一部分组件失效时，不会影响到整个系统，加入队列中的消息仍然可以在系统恢复后被处理。

3）流量消峰/缓冲
在访问量剧增的情况下，应用仍然需要继续发挥作用，但是这样的突发流量并不常见。如果为以能处理这类峰值访问为标准来投入资源随时待命无疑是巨大的浪费。使用消息队列能够使关键组件顶住突发的访问压力，而不会因为突发的超负荷的请求而完全崩溃；
有助于控制和优化数据流经过系统的速度，解决生产消息和消费消息的处理速度不一致的情况。

4）顺序保证
在大多使用场景下，数据处理的顺序都很重要。大部分消息队列本来就是排序的，并且能保证数据会按照特定的顺序来处理。磁盘顺序读写比内存随机访问效率更高。

5）冗余
消息队列把数据进行持久化直到它们已经被完全处理，通过这一方式规避了数据丢失风险。许多消息队列所采用的"插入-获取-删除"范式中，在把一个消息从队列中删除之前，需要你的处理系统明确的指出该消息已经被处理完毕，从而确保你的数据被安全的保存直到你使用完毕。

1.3、Kafka是什么

Kafka是一个分布式、支持分区的、多复本的、基于zookeeper协调的分布式消息系统。

1）最大的特性就是可以实时的处理大量数据以满足各种需求场景：比如基于hadoop的批处理系统、低延迟的实时系统、storm/Spark流式处理引擎，web/nginx日志、访问日志，消息服务等等，用scala语言编写。在流式计算中，Kafka 一般用来缓存数据，SparkStreaming通过消费Kafka的数据进行计算。

2）Kafka是一个分布式消息队列，具有生产者、消费者的功能。它提供了类似于JMS的特性，但是在设计实现上完全不同，此外它并不是JMS规范的实现。相当于结合了JMS的两个模式：Producer以订阅的方式向brocker推送topic；Consumer以抓取的方式从brocker中抓取topic

3）Kafka对消息保存时根据Topic进行归类，发送消息者称为Producer，消息接受者称为Consumer，此外kafka集群有多个kafka实例组成，每个实例(server)成为broker。

4）无论是kafka集群，还是producer和consumer都依赖于zookeeper集群保存一些meta信息，来保证系统可用性

Kafka与消息队列对比
Kafka是一个流平台，在这个平台上可以发布和订阅数据流，并把它们保存起来、进行处理，这是构建Kafka的初衷。
Kafka有些类似消息系统，但Kafka以集群的方式运行，可以自由伸缩；
作为数据连接层，Kafka提供了数据传递保证，即可复制、持久化，保存多久都可以；
消息系统只会传递消息，而Kafka的流式处理能力能够很动态地处理派生流和数据集；

Kafka与flume对比

flume
适合多个生产者；（一个生产者对应一个 Agent 任务）
适合下游数据消费者不多的情况；（多 channel 多 sink 会耗费很多内存）
适合数据安全性要求不高的操作；（实际中更多使用 Memory Channel）
适合与 Hadoop 生态圈对接的操作。（Cloudera 公司的特长）

kafka
适合数据下游消费者众多的情况；（开启更多的消费者任务即可，与 Kafka 集群无关）
适合数据安全性要求较高的操作，支持replication。（数据放在磁盘里）

因此我们常用的一种模型是：
线上数据 --> flume(适合采集tomcat日志) --> kafka(离线/实时) --> flume(根据情景增删该流程) --> HDFS

Kafka与Hadoop对比
Kafka与可以看成是实时版的Hadoop，Hadoop可以存储和定期处理大量的数据文件，而Kafka可以存储和持续处理大型的数据流，它们之间的最大不同体现在持续的低延迟处理和批处理之间的差异上。Hadoop和大数据应用主要用于数据分析，而Kafka因其低延迟的特点更适合用在核心的业务应用上

Kafka与ETL工具对比
Kafka并非只是把数据从一个系统拆解出来再塞到另一个系统，它其实是一个面向实时数据流的平台。也就是说，它不仅可以将现有的应用程序和数据系统连接起来，还能够用于加强这些触发相同数据流的应用