1、Topic 像是一个数据库的表
kafaka不能创建太多的topic ,不然性能会下降
2、partional 分区的概念,像数据库的分区
几个分区总和才是某topic的全部消息。可以分散压力
3、Producer 生产者
4、Customer 消费者
消费者群组的概念,某一个组内不同的消费者不能消费同topic下同分区的消息 为了不相互打扰。当消费组内消费者不够的情况,同一个消费者可以消费多个分区的消息
5、zookeeper 集群的管理依赖zk, zk也可以创建一个leader,leader来管理kafaka集群,
zk节点里面创建 /brokers/0,1,2 这样会把集群所有节点的信息合并到一起(生成集群的元数据信息),然后通知到其他节点,这样节点间就可以相互知道彼此
6、replica 副本的概念
生产者和消费者直接打交道的都是副本的leader , 副本的foller 会去leader那边同步消息
7、broker
kafaka的一个服务器
kafaka 速度为啥会比较快
1、顺序写 追加数据是追加到末尾
2、零拷贝 可以看到数据的拷贝从内存拷贝到kafka服务进程那块,又拷贝到socket缓存那块,整个过程耗费的时间比较高,kafka利用了Linux的sendFile技术(NIO),省去了进程切换和一次数据拷贝,让性能变得更好。
3、日志的分段存储
Kafka规定了一个分区内的.log文件最大为1G,做这个限制目的是为了方便把.log加载到内存去操作
4、Kafka的网络设计
三层架构 Accepter 只接受消息,生成socketChannel发送给这些processor(默认三个)形成一个队列,发送的方式是轮询,
消费者线程去消费这些socketChannel时,会获取一个个request请求,这些request请求中就会伴随着数据。
线程池里面默认有8个线程,这些线程是用来处理request的,解析请求,如果request是写请求,就写到磁盘里。读的话返回结果
processor会从response中读取响应数据,然后再返回给客户端。这就是Kafka的网络三层架构。