kafka的特点
1.解耦:
允许你独立的扩展或修改两边的处理过程,只要确保它们遵守同样的接口约束。
2.冗余:
消息队列把数据进行持久化直到它们已经被完全处理,通过这一方式规避了数据丢失风险。许多消息队列所采用的"插入-获取-删除"范式中,在把一个消息从队列中删除之前,需要你的处理系统明确的指出该消息已经被处理完毕,从而确保你的数据被安全的保存直到你使用完毕。
3.扩展性:
因为消息队列解耦了你的处理过程,所以增大消息入队和处理的频率是很容易的,只要另外增加处理过程即可。
4.灵活性 & 峰值处理能力:
在访问量剧增的情况下,应用仍然需要继续发挥作用,但是这样的突发流量并不常见。如果为以能处理这类峰值访问为标准来投入资源随时待命无疑是巨大的浪费。使用消息队列能够使关键组件顶住突发的访问压力,而不会因为突发的超负荷的请求而完全崩溃。
5.可恢复性:
系统的一部分组件失效时,不会影响到整个系统。消息队列降低了进程间的耦合度,所以即使一个处理消息的进程挂掉,加入队列中的消息仍然可以在系统恢复后被处理。
6.顺序保证:
在大多使用场景下,数据处理的顺序都很重要。大部分消息队列本来就是排序的,并且能保证数据会按照特定的顺序来处理。(Kafka 保证一个 Partition 内的消息的有序性)
7.缓冲:
有助于控制和优化数据流经过系统的速度,解决生产消息和消费消息的处理速度不一致的情况。
8.异步通信:
很多时候,用户不想也不需要立即处理消息。消息队列提供了异步处理机制,允许用户把一个消息放入队列,但并不立即处理它。想向队列中放入多少消息就放多少,然后在需要的时候再去处理它们。
kafka构架图
1.Leader分区只负责读写数据
2.Follower分区负责同步数据
3.一个消费者组中的多个消费者不能同时消费同一个Leader分区
4.如果消费者组内消费者的数量大于分区的数量,一个消费者可以读取多个分区的数量
5.如果消费者组内消费者的数量小于分区的数量,可能会有消费者读不到数据(空跑)
6.不同消费者组之间读取数据相互没有影响
7.消费者在同一个分区内消费的数据是有序的
如果机器数量和机器资源(内存,CPU)允许的情况下,分区数量越多,并发越高,吞吐量越高,这样的目的是将读写压力分摊到其他节点(负载均衡)
创建topic指定分区的数量:机器的数量(Kafka broker的数量)*机器的逻辑核
(业务量最大的topic可以这样设置分区,其他topic可以适当减少分区)
kafka相关概念
1.producer:
消息生产者,发布消息到 kafka 集群的Borker(下面的Leader分区)。
2.broker:
kafka 集群中安装Kafka的服务器(容器),broker要有唯一的ID。
3.topic:
每条发布到 kafka 集群的消息属于的类别,即 kafka 是面向 topic 的(相当于数据库中的表)
4.partition:
partition 是物理上的概念,每个 topic 包含一个或多个 partition。kafka 分配的单位是 partition。
5.consumer:
从 kafka 集群中消费消息的终端或服务。
6.Consumer group:
high-level consumer API 中,每个 consumer 都属于一个 consumer group,每条消息只能被 consumer group 中的一个 Consumer 消费,但可以被多个 consumer group 消费。
7.replica:
partition 的副本,保障 partition 的高可用。
8.leader:
replica 中的一个角色, producer 和 consumer 只跟 leader 交互。
9.follower:
replica 中的一个角色,从 leader 中复制数据。
10.zookeeper:
kafka 通过 zookeeper 来存储集群的 meta 信息