Overall
Kafka起源于LinkedIn公司,用于对各业务系统的基础指标(内存/CPU/磁盘/网络等)和应用指标数据进行分析,自定义开发系统实现逐渐不能满足。
随着数据增长,业务需求复杂度提高,自定义开发问题越来越多。
逐渐进化成一个技能满足实时处理,又支持水平扩展的消息系统-Kafka。
是一个发布-订阅式的队列消息系统,使用scala语言编写,非常适合离线、在线消息消费。消息存储在磁盘上,并在集群内复制,防止数据丢失。
Advantages
- 可靠性:分布式的,分区复制容错;
- 可扩展:轻松扩展;
- 耐用性:消息会尽可能快速的保存在磁盘上
- 性能:对发布和订阅都有高吞吐量,即使对TB级的消息,也有稳定的性能;
- 速度:非常快
应用场景
- 指标分析
- 日志聚合:从多服务器收集日志,以标准的格式提供给多消费者。
- 流处理:配合spark/storm/flink流处理框架使用。
基本概念
Broker:即一个Kafka进程,通常一个服务器节点部署一个实例(Broker)
Producer: 消息的产生者,Producer将消息记录发送到Kafka集群指定的主题(Topic)中进行存储;
Consumer: 消息的使用者,Consumer从Kafka集群指定的主题(Topic)中读取消息记录;
Topic主题:通过主题来区分不同业务类型的消息。
Partition:每个主题可以有一个或多个分区(提供数据冗余、可靠性、高性能)
- 多个分区并发读取,提高吞吐量;
- 分区内部消息是有序的,每个消息有一个偏移量(Offset);
- 一个代理节点内部可管理多个分区。
Replication副本:主题创建时指定副本数(默认1)
建议副本数量:
集群节点数量>=3时,副本=3;
节点小于3时,副本=节点数;