一 简介
- Zookeeper是一个分布式应用服务协调服务,为分布式应用提供一致性服务,包括配置维护、域名服务、分布式同步、组服务等(源自百科)
- kafka是一种高吞吐量的分布式发布订阅消息系统,可以处理消费者规模的网站中的所有动作流数据。具有以下特性
- 通过O(1)的磁盘数据结构听过消息的持久化
- 高吞吐量
- 支持通过Kafka服务器和消费机集群来分区消息
- 支持Hadoop并行数据加载
- kafka相关名词介绍
- Broker:kafka集群包含一个或多个服务器,这种服务器被称为broker
- Topic:每条发布到kafka集群的消息都有一个类别,这个类别被称为Topic(物理上不同Topic消息分开存储,逻辑上一个Topic的消息虽然保存在一个或多个Broker上,但用户无需关系数据存放在哪个Broker上,只需要指定消息对应的Topic即可)
- Partition:物理上的概念,每个Topic包含一个或多个Partition
- LogSegment:日志分段,每个partition被分为多个logSegment,日志段是kafka日志对象分片的最小单位,可以算作一个逻辑概念,由一个具体的日志文件(.log的数据文件)和两个索引文件(.index和.timeindex,分别对应偏移量索引文件和消息时间戳索引文件)组成
- Offset:偏移量,每个partition中都有一系列有序的、不可变的消息组成,这些消息被顺序地追加到partition中。每个消息都有一个连续的序列号称之为offset,用于在partition内唯一标识消息(并