Kafka, 是一种高吞吐率, 多分区, 多副本, 基于发布订阅的分布式消息系统, 支持海量数据传递
- 高吞吐量, 低延迟: 每秒可以处理几十万条消息, 延迟最低只有几毫秒, 每个主题可以分多个分区, 消费组可对不同分区进行操作
- 可扩展性: 集群支持热扩展
- 持久化, 可靠性: 消息被持久化到本地磁盘, 且支持数据备份防止丢失
- 容错性: 允许集群中节点失败(若副本数量为n, 则允许n-1个节点失败)
- 高并发: 支持数千个客户端同时读写
组成部分
- Broker: 消息中间件处理节点, 一个 kafka 节点就是一个 broker, 一个或者多个 broker 可以组成 kafka 集群
- Topic: 主题, 可以理解成是一个类别的名称, Kafka 根据 topic 对消息进行分类, 发布到 kafka 集群的每条消息都需要指定一个 topic, 不同的 topic 会被订阅该 topic 的消费者消费
- Producer: 消息生产者, 向 broker 发送消息的客户端
- Consumer: 消息消费者, 从 broker 读取消息的客户端
- ConsumerGroup: 每个 Consumer 属于一个特定的 ConsumerGroup, 一个消息可以被多个不同的 ConsumerGroup 消费, 但是一个 ConsumerGroup 中只能有一个 Consumer 消费该消息
- Partition: 物理上的概念, 就是一个一个的文件夹(文件夹下有数据文件,和相应的索引文件), 一个 topic 可以分为多个 partition, 分区的作用是做负载, 一个主题中的消息量是非常大的, 因此可以通过分区的设置, 来分布式存储这些消息, 分区存储, 可以解决统一存储文件过大的问题, 提高读写的吞吐量, 读和写可以同时在多个分区中进行, 同一个topic在不同的分区的数据是不重复的, 每个 partition 内部消息是有序的
- Replication 副本: 为主题中的分区创建备份, 在集群中, 不同的副本会被部署在不同的 broker 上, 有一个作为 leader, 其他为 follower, 且副本的数量不能大于broker节点的数量
在windows本地通过sarama包连接阿里云部署的kafka时, 在发送消息时, 报错:
kafka send failed: dial tcp: lookup Lily: no such host
其中Lily是我阿里云ECS的主机名
解决:
- 打开win本地的 hosts 文件
通过 win+r 唤起运行, 输入 drivers, 进入 etc 中找到 hosts 文件, 记事本打开 - 将主机名和对应的IP填入
192.168.1.122. Lily - 重试