Kafka的三层消息架构

文章目录


Kafka 属于分布式的消息引擎系统,它的主要功能是提供一套完备的消息发布与订阅解决方案。

Topic

本质上一个Topic是命名的记录流。Kafka用log的方式记录这些主题数据。一个主题Log会分成若干个分区(Partition),而这些分区可以分布在不同的Kafka Server上或者不同的磁盘上。换句话说,我们可以认为一个主题是一个分类目录,是一个消息流名称,或者是一个订阅源。

Partition

Topic被分为多个Partition,Producer产生的消息会被送到其中的某个分区。分区的编号从0开始。消息进入kafka后,会被送入某个主题的某个分区。具体进入哪个分区取决于:

  • Partition id:如果消息中指定了该值
  • key % num partitions:如果指定了key
  • Round robin :消息既没有partition id 也没有message key ,就会轮询进入各个partition

每个分区中的消息按照顺序排列,kafka通过消息偏移(offset)可以确定消息在分区中的位置。值得注意的是,发送的消息如果是在固定的分区,消息序列是有序的,而如果是不同的分区则无法保证顺序。

消费者消费消息时,为了提高消息者端的吞吐量,kafka引入了消费者组。多个用户组成一个消费者组,共同消费一个主题各个分区的消息。并且一个分区只能由一个消费者去消费,但是一个消费者可以消费多个分区:

  • 当分区多于消费者时:
  • 当分区和消费者相等时:
  • 当分区小于消费者时:

如果某个消费者挂掉,其持有的分区会重新分配其他消费者,这就是Kafka的重平衡(Rebalance)。

分区的副本,kafka为了保证数据的高可用,会在配置数量的broker上复制分区的副本,这些副本中只有一个Leader,其他的称为FollowerLeader分区负责对外提供读写服务,其他Follower会同步数据,只做数据冗余备份。这些副本Kafka用Zookeeper管理,一旦Leader挂掉,会重新再副本中选举新的Leader. 这些只做数据同步备份的分区我们称为 ISR (in-sync replica)

只有当所有备份副本都将消息写入自己的Log,这条消息的状态才会变为“commited”,此时它才可以被消费。

Record

Record(消息)是Producer和Consumer处理的对象和Kafka要处理的具体对象。

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
⼤数据平台架构 前⾯提到各种⼤数据技术的原理与架构,⼤数据计算通过将可执⾏的代码分发到⼤规模的服务器集群上进⾏分布式计算,以处理⼤规模的数 据,即所谓的移动计算⽐移动数据更划算。但是这样的计算⽅式必然不会很快,即使⼀个规模不太⼤的数据集上的⼀次简单计 算,MapReduce也可能需要⼏分钟,Spark快⼀点,也⾄少需要数秒的时间。 ⽽⽹站处理⽤户请求,需要毫秒级的响应,也就是说,要在1秒内完成计算,⼤数据计算必然不能实现这样的响应要求。但是⽹站应⽤⼜需 要使⽤⼤数据实现统计分析、数据挖掘、关联推荐、⽤户画像等⼀系列功能。 所以⽹站需要构建⼀个⼤数据平台,去整合⽹站应⽤和⼤数据系统之间的差异,将应⽤程序产⽣的数据导⼊到⼤数据系统,经过处理计算后 再导出给应⽤程序使⽤。⼀个典型的⽹站⼤数据平台架构如下图: ⼤数据平台可分为三个部分 数据采集 将应⽤程序产⽣的数据和⽇志等同步到⼤数据系统中,由于数据源不同,这⾥的数据同步系统实际上是多个相关系统的组合。数据库同步通 常⽤Sqoop,⽇志同步可以选择Flume,打点采集的数据经过格式化转换后通过Kafka传递。 不同的数据源产⽣的数据质量可能差别很⼤,数据库中的数据也许可以直接导⼊⼤数据系统就可以,⽽⽇志和爬⾍产⽣的数据就需要进⾏⼤ 量的清洗、转化处理才能有效使⽤。所以数据同步系统实际上承担着传统数据仓库ETL的⼯作。 数据处理 这⾥是⼤数据存储与计算的核⼼,数据同步系统导⼊的数据存储在HDFS。MapReduce、Hive、Spark等计算任务读取HDFS上的数据进 ⾏计算,再将计算结果写⼊HDFS。 MapReduce、Hive、Spark等进⾏的计算处理被称作是离线计算,HDFS存储的数据被称为离线数据。相对的,⽤户实时请求需要计算的 数据称为在线数据,这些数据由⽤户实时产⽣,进⾏实时在线计算,并把结果数据实时返回⽤户,这个计算过程中涉及的数据主要是⽤户⾃ ⼰⼀次请求产⽣和需要的数据,数据规模⾮常⼩,内存中⼀个线程上下⽂就可以处理。 在线数据完成和⽤户的交互后,被数据同步系统导⼊到⼤数据系统,这些数据就是离线数据,其上进⾏的计算通常针对(某⼀⽅⾯的)全体 数据,⽐如针对所有订单进⾏商品的关联性挖掘,这时候数据规模⾮常⼤,需要较长的运⾏时间,这类计算就是离线计算。 除了离线计算,还有⼀些场景,数据规模也⽐较⼤,要求的处理时间也⽐较短。⽐如淘宝要统计每秒产⽣的订单数,以便进⾏监控和宣传。 这种场景被称为⼤数据流式计算,通常⽤Storm、Spark Steaming等流式⼤数据引擎来完成,可以在秒级甚⾄毫秒级时间内完成计算。 数据输出与展⽰ ⼤数据计算产⽣的数据还是写⼊到HDFS中,应⽤程序不可能到HDFS中读取数据,所以必须要将HDFS中的数据导出到数据库中。数据同 步导出相对⽐较容易,计算产⽣的数据都⽐较规范,稍作处理就可以⽤Sqoop之类的系统导出到数据库。 这时,应⽤程序就可以直接访问数据库中的数据,实时展⽰给⽤户,⽐如展⽰给⽤户的关联推荐的商品。淘宝卖家的量⼦魔⽅之类的产品, 其数据都来⾃⼤数据计算产⽣。 除了给⽤户访问提供数据,⼤数据还需要给运营和决策层提供各种统计报告,这些数据也写⼊数据库,被相应的后台系统访问。很多运营和 管理⼈员,每天⼀上班,就是登录后台数据系统,查看前⼀天的数据报表,看业务是否正常。如果数据正常甚⾄上升,就可以稍微轻松⼀ 点,如果数据下跌,焦躁⽽忙碌的⼀天也马上就开始了。 将上⾯三个部分整合起来的是任务调度管理系统,不同的数据何时开始同步,各种MapReduce、Spark任务如何合理调度才能使资源利⽤ 最合理、等待的时间⼜不⾄于太久,临时的重要任务能够尽快执⾏,这些都需要任务调度管理系统完成。有时候对分析师和⼯程师开放的作 业提交、进度跟踪,数据查看等功能也集成在这个系统中。 对于每个公司的⼤数据团队,最核⼼开发维护的也就是这个系统,⼤数据平台上的其他系统⼀般都有成熟的开源软件可以选择,作业调度管 理会涉及很多个性化的需求,通常需要团队⾃⼰开发。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值