kafka入门

最新推荐文章于 2024-10-04 15:33:00 发布

what_2018

最新推荐文章于 2024-10-04 15:33:00 发布

阅读量77

点赞数

文章标签： kafka java 分布式

本文链接：https://blog.csdn.net/qq_24426227/article/details/126351648

版权

kafka

定义

	Apache软件基金会开发的一个开源流处理平台，由Scala和Java编写。Kafka是一种高吞吐量的分布式发布订阅消息系统，它可以处理消费者在网站中的所有动作流数据。

介绍

  kafka是一个分布式、分区、多副本、多订阅者、基于zookeeper协调的分布式日志系统，可以作为消息中间件，如下图是kafka架构图

kafka
Producer ：生产者，发送消息一方。生成这负责创建消息，然后将其发送到kafka。
Consumer：消费者，接受消息一方。消费者连接到kafka上并接受消息，进而进行相应业务处理。
ConsumerGroup：消费者组，一个消费组可以包含一个或者多个消费者，使用多分区+多消费者方式可以极大提高数据下游的处理速度，同一消费组中的消费者不会重复消费消息，同样的，不同消费组中的消费者消息时消息不会互相影响。kafka通过消费组的方式来实现消息P2P模式和广播模式。
Broker：服务代理节点，broker是kafka的服务节点，即kafka的服务器。
Topic：kafka中的消息以Topic为单位进行划分，生产者将消息发送到特定的Topic，而消费者负责定阅Topic的消息并进行消费。
Partition：分区，Topic是一个逻辑概念，它可以细节为多个分区，每个分区属于单个主题。同一个主题下不同分区包含消息是不同的，分区在存储层面可以看作一个可追加的日志文件，消息在被追加到分区日志文件的时候都会分配一个特定的偏移量。
Offset：是消息在分区的唯一标识，通过它来保证消息在分区内的顺序性，不过offset并不跨分区，也就是说，kafka是保证的是分区有序性而不是主题有序性
Repliaction 副本，是kafka保证数据高可用方式，同一个partition的数据可以在多broker上存在多个副本，通常只有主副本对外提供读写服务，当主副本在broker崩溃或发生网络异常，kafka会在controller的管理下重新选择新的leader副本对外提供读写服务。
Record ：实际写入kafka中并可以读取的消息记录。每个record包含key、value和timestamp。

消息队列作用

   1. 流量削峰
   2. 系统解耦
   3. 异步处理

应用场景

	1. 消息队列
 		建立实时流数据管道，在系统或应用程序之间获取数据。
	2. 数据处理
		构建实时的流数据处理程序来转换或处理数据流。

优点

	 1. 高吞吐量、低延迟（每秒可以处理几十万条消息，它的延迟最低只有几毫秒）
	 2. 持久性、可靠性（消息被持久化到本地磁盘，并且支持数据备份防止数据丢失）
	 3. 容错性（允许集群中节点故障【若副本数量为n,则允许n-1个节点故障】)
	 4. 高并发 (支持数千个客户端同时读写)
	 5. 扩展性（集群支持热扩展，kafka集群启动后，可以直接向集群添加节点）

缺点

	 1. 需要解决消息重复消费、有序消费、消息积压、消息丢失等问题。
	 2. kafka需要zookeeper作为支持，部署和维护成本比一般得mq更高。

主流消息中间件对比

消息中间件对比

what_2018

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫