kafka入门

kafka

定义

	Apache软件基金会开发的一个开源流处理平台,由Scala和Java编写。Kafka是一种高吞吐量的分布式发布订阅消息系统,它可以处理消费者在网站中的所有动作流数据。

介绍

  kafka是一个分布式、分区、多副本、多订阅者、基于zookeeper协调的分布式日志系统,可以作为消息中间件,如下图是kafka架构图

kafka
Producer :生产者,发送消息一方。生成这负责创建消息,然后将其发送到kafka。
Consumer:消费者,接受消息一方。消费者连接到kafka上并接受消息,进而进行相应业务处理。
ConsumerGroup:消费者组,一个消费组可以包含一个或者多个消费者,使用多分区+多消费者方式可以极大提高数据下游的处理速度,同一消费组中的消费者不会重复消费消息,同样的,不同消费组中的消费者消息时消息不会互相影响。kafka通过消费组的方式来实现消息P2P模式和广播模式。
Broker:服务代理节点,broker是kafka的服务节点,即kafka的服务器。
Topic:kafka中的消息以Topic为单位进行划分,生产者将消息发送到特定的Topic,而消费者负责定阅Topic的消息并进行消费。
Partition:分区,Topic是一个逻辑概念,它可以细节为多个分区,每个分区属于单个主题。同一个主题下不同分区包含消息是不同的,分区在存储层面可以看作一个可追加的日志文件,消息在被追加到分区日志文件的时候都会分配一个特定的偏移量。
Offset:是消息在分区的唯一标识,通过它来保证消息在分区内的顺序性,不过offset并不跨分区,也就是说,kafka是保证的是分区有序性而不是主题有序性
Repliaction 副本,是kafka保证数据高可用方式,同一个partition的数据可以在多broker上存在多个副本,通常只有主副本对外提供读写服务,当主副本在broker崩溃或发生网络异常,kafka会在controller的管理下重新选择新的leader副本对外提供读写服务。
Record :实际写入kafka中并可以读取的消息记录。每个record包含key、value和timestamp。

消息队列作用

   1. 流量削峰
   2. 系统解耦
   3. 异步处理

应用场景

	1. 消息队列
 		建立实时流数据管道,在系统或应用程序之间获取数据。
	2. 数据处理
		构建实时的流数据处理程序来转换或处理数据流。

优点

	 1. 高吞吐量、低延迟(每秒可以处理几十万条消息,它的延迟最低只有几毫秒)
	 2. 持久性、可靠性(消息被持久化到本地磁盘,并且支持数据备份防止数据丢失)
	 3. 容错性(允许集群中节点故障【若副本数量为n,则允许n-1个节点故障】)
	 4. 高并发 (支持数千个客户端同时读写)
	 5. 扩展性(集群支持热扩展,kafka集群启动后,可以直接向集群添加节点)

缺点

	 1. 需要解决消息重复消费、有序消费、消息积压、消息丢失等问题。
	 2. kafka需要zookeeper作为支持,部署和维护成本比一般得mq更高。

主流消息中间件对比

消息中间件对比

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

what_2018

你的鼓励是我前进的动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值