kafka
定义
Apache软件基金会开发的一个开源流处理平台,由Scala和Java编写。Kafka是一种高吞吐量的分布式发布订阅消息系统,它可以处理消费者在网站中的所有动作流数据。
介绍
kafka是一个分布式、分区、多副本、多订阅者、基于zookeeper协调的分布式日志系统,可以作为消息中间件,如下图是kafka架构图
Producer :生产者,发送消息一方。生成这负责创建消息,然后将其发送到kafka。
Consumer:消费者,接受消息一方。消费者连接到kafka上并接受消息,进而进行相应业务处理。
ConsumerGroup:消费者组,一个消费组可以包含一个或者多个消费者,使用多分区+多消费者方式可以极大提高数据下游的处理速度,同一消费组中的消费者不会重复消费消息,同样的,不同消费组中的消费者消息时消息不会互相影响。kafka通过消费组的方式来实现消息P2P模式和广播模式。
Broker:服务代理节点,broker是kafka的服务节点,即kafka的服务器。
Topic:kafka中的消息以Topic为单位进行划分,生产者将消息发送到特定的Topic,而消费者负责定阅Topic的消息并进行消费。
Partition:分区,Topic是一个逻辑概念,它可以细节为多个分区,每个分区属于单个主题。同一个主题下不同分区包含消息是不同的,分区在存储层面可以看作一个可追加的日志文件,消息在被追加到分区日志文件的时候都会分配一个特定的偏移量。
Offset:是消息在分区的唯一标识,通过它来保证消息在分区内的顺序性,不过offset并不跨分区,也就是说,kafka是保证的是分区有序性而不是主题有序性
Repliaction 副本,是kafka保证数据高可用方式,同一个partition的数据可以在多broker上存在多个副本,通常只有主副本对外提供读写服务,当主副本在broker崩溃或发生网络异常,kafka会在controller的管理下重新选择新的leader副本对外提供读写服务。
Record :实际写入kafka中并可以读取的消息记录。每个record包含key、value和timestamp。
消息队列作用
1. 流量削峰
2. 系统解耦
3. 异步处理
应用场景
1. 消息队列
建立实时流数据管道,在系统或应用程序之间获取数据。
2. 数据处理
构建实时的流数据处理程序来转换或处理数据流。
优点
1. 高吞吐量、低延迟(每秒可以处理几十万条消息,它的延迟最低只有几毫秒)
2. 持久性、可靠性(消息被持久化到本地磁盘,并且支持数据备份防止数据丢失)
3. 容错性(允许集群中节点故障【若副本数量为n,则允许n-1个节点故障】)
4. 高并发 (支持数千个客户端同时读写)
5. 扩展性(集群支持热扩展,kafka集群启动后,可以直接向集群添加节点)
缺点
1. 需要解决消息重复消费、有序消费、消息积压、消息丢失等问题。
2. kafka需要zookeeper作为支持,部署和维护成本比一般得mq更高。