kafka个人理解

kafka个人理解

现有一个kafka cluster,我们看作是一个文件夹。

Topic

一个topic就是这个文件夹中的一个Excel文件的文件名,他只有逻辑意义,不代表具体的资源。我们先对一个Topic进行处理。

Partition

一个Topic中,也就是上述说的Excel表中有很多张表(Sheet 或者 Partition),每一个Sheet中都存储着数据,从最上面0行开始往下看(消费Consumer)。

Group

现在有市场部、销售部、运营部都要对这个Excel文件(Topic)进行处理,因为处理过程复杂,所以他们只能一行一行消费,并且每个部门的人对表中数据的处理规则和要求不一样,所以他们必须都不能修改表中的数据,防止影响到别的人。

Offset

由于这个表比较大,不可能一天处理完,所以每个部门都会对处理的每个Sheet(Partition)打标记(Offset),用来记录自己处理(消费Consume)到哪儿了,一般是处理完一个Sheet的一条数据(一行),Offset加一,当然也有可能要几行才可以处理一个数据,所以可以控制一下消费的时候一次处理几条记录。
在这个过程中,会遇到部门员工更替的情况,新员工忘了以前处理的数据处理到哪儿了,或者发现之前的处理方式有问题,他可以重新再处理一次,这时候Offset置0,从earliest开始消费。

Consumer

也就是每个Group中的员工,他们负责对数据进行顺序处理。

Producer

这个表里的内容从哪里来呢?当然需要也有个部门的人负责往表里写数据了,他们不需要管你是哪个组的,因为对他来说,我的数据就一份,你们怎么消费我不管。所以Produce的时候不需要指定GroupId。当然,有时候生产的数据太大了,编个码也是可以的。

ZooKeeper

动物园管理员,Apache动物大家庭的一个教务处主任,负责动物太多了,中间说话困难,当然在Kafka中他负责表太多了、每个人可能记不住自己哪几个表的Offset这些问题的解决。

其他

上述只是一个Kafka组件的简单理解,现在再来看看正统的讲解是否能看懂了吧。

大佬专业讲解

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值