Kafka
Kafka是一个高吞吐的分布式消息系统。同时为发布和订阅提高吞吐量,可进行持久化操作,将消息持久化到磁盘,因此可用于批量消费。分布式系统,易于向外扩展。所有的producer,broker和consumer都会有多个,无需停机即可扩展机器。消息处理的状态是在consumer端维护,而不是由server端维护。当失败时能自动平衡。
设计:消息保存在磁盘,O(1)时间复杂度,消费状态保存在消费客户端,可以保存大量未处理消息,支持压缩。
架构
- producer:向broker发送消息(同步发送和异步发送两种方式,默认为同步发送),可通过任意一个broker发现其他broker的位置信息,借助zookeeper实现。producer发送的消息会进行分类,分成多个topic。
- topic:过对消息指定主题可以将消息分类,消费者可以只关注自己需要的Topic中的消息。
- Consumer:消费者通过与kafka集群建立长连接的方式,不断地从集群中拉取消息,然后可以对这些消息进行处理。
- broker:producer和consumer之间的桥梁,从producer端接收消息并保存,将消息发送给订阅的consumer。可将消息可靠地缓存一段时间。
- log-based queue:一个队列,消息追加在append-only文件中,producer向文件追加消息(顺序写),consumer从文件中读取一定范围消息(顺序读)
- partition:建一个topic时,同时可以指定分区数目,分区数越多,其吞吐量也越大,但是需要的资源也越多。afka在接收到生产者发送的消息之后,会根据均衡策略将消息存储到不同的分区中。