kafka总结

2 篇文章 0 订阅
1 篇文章 0 订阅

为什么分布式流处理平台Kafka这么高性能?

01 为什么要使用消息中间件

在没有使用消息中间件之前,许多传统的系统业务对于消息的处理一般会采用串行方式或者并行方法;

例如,你去网站注册一个账号,网站服务器对我们的注册操作进行处理,下面是串行跟并行的处理方式。

串行方式:

用户注册发放优惠券:用户注册,发放优惠券,将注册信息记录到数据库后,发送注册消息邮件,再发送注册短信验证,每个过程消耗50毫秒,一共就需要200毫秒

并行方式:

并行方式与串行方式不同的就是,用户注册存储数据后只需要往MQ投递消息即可,后续的发送邮件、优惠券发放等可以同时完成,只需要100ms即响应,而不是根据上一个动作完成后再完成下一个动作,大大缩短了用户的等待时间,如下图:

img

到这里大家明白,什么是MQ消息中间件,全称MessageQueue,主要是用于程序和程序直接通信,异步+解耦

使用场景:

1)解耦:订单系统-》物流系统

2)异步:用户注册-》发送邮件,初始化信息

3)削峰:秒杀、日志处理

4)还有跨平台 、多语言、分布式事务、最终一致性、RPC调用上下游对接,数据源变动->通知下游服务。

02 什么是Kafka呢

1)Kafka是最初由Linkedin公司开发,Linkedin于2010年贡献给了Apache基金会并成为顶级开源项目,也是一个开源【分布式流处理平台】,由Scala和Java编写(也当做MQ系统,但不是纯粹的消息系统)

2)核心是一种高吞吐量的分布式流处理平台,它可以处理消费者在网站中的所有动作流,比如 网页浏览,搜索和其他用户的行为等,应用于大数据实时处理领域,官网:http://kafka.apache.org/

img

03 kafka一些术语

1)Broker:Kafka的服务端程序,可以认为一个mq节点就是一个broker。broker存储topic的数据

2)Producer生产者:创建消息Message,然后发布到MQ中,该角色将消息发布到Kafka的topic中

3)Consumer消费者: 消费队列里面的消息

4)ConsumerGroup消费者组:同个topic, 广播发送给不同的group,一个group中只有一个consumer可以消费此消息

5)Topic:每条发布到Kafka集群的消息都有一个类别,这个类别被称为Topic,主题的意思

6)Partition分区:kafka数据存储的基本单元,topic中的数据分割为一个或多个partition,每个topic至少有一个partition,是有序的;一个Topic的多个partitions, 被分布在kafka集群中的多个server上;消费者数量 <=小于或者等于Partition数量

7)Replication 副本(备胎):同个Partition会有多个副本replication ,多个副本的数据是一样的,当其他broker挂掉后,系统可以主动用副本提供服务;默认每个topic的副本都是1(默认是没有副本,节省资源),也可以在创建topic的时候指定;如果当前kafka集群只有3个broker节点,则replication-factor最大就是3了,如果创建副本为4,则会报错

8)ReplicationLeader、ReplicationFollower:Partition有多个副本,但只有一个replicationLeader负责该Partition和生产者消费者交互;ReplicationFollower只是做一个备份,从replicationLeader进行同步

9)ReplicationManager:负责Broker所有分区副本信息,Replication 副本状态切换

10)offset偏移量:每个consumer实例需要为他消费的partition维护一个记录自己消费到哪里的偏移offset;kafka把offset保存在消费端的消费者组里

img

04 特点总结

1)多订阅者

2)一个topic可以有一个或者多个订阅者

3)每个订阅者都要有一个partition,所以订阅者数量要少于等于partition数量

4)高吞吐量、低延迟: 每秒可以处理几十万条消息

5)高并发:几千个客户端同时读写

6)容错性:多副本、多分区,允许集群中节点失败,如果副本数据量为n,则可以n-1个节点失败

7)扩展性强:支持热扩展

05 Kafka为什么性能强劲

1)kafka的储存设计方面

在Kafka文件存储中,同一个topic下有多个不同partition,每个partition为一个目录,partiton命名规则为topic名称+有序序号,第一个partiton序号从0开始,序号最大值为partitions数量减1。每个partition(目录)被平均分配到多个大小相等segment(段)数据文件中。但每个段segment file消息数量不一定相等,通过多个小文件段,就容易定期清除或删除已经消费完文件,减少磁盘占用。每一个sgement又包含了index文件和log文件,可以快速定位数据,通过index元数据全部映射到memory,可以避免segment file的IO磁盘操作

img

2)异步发送高性能

Kafka的客户端发送数据到服务器,不是来一条就发一条,消息发送主要是两个线程:一个是Main用户主线程,一个是Sender线程。中间会经过内存缓冲区(默认是16KB),通过KafkaProducer发送出去的消息都是先进入到客户端本地的内存缓冲里,然后把很多消息收集到的Batch里面,再一次性发送到Broker上去的,这样性能才可能提高

配置一:batch.size

每个分区未发送消息总字节大小,单位:字节,超过设置的值就会提交数据到服务端,默认值是16KB

配置二:linger.ms

默认值就是0,消息是立刻发送的,即便batch.size缓冲空间还没有满,如果想减少请求的数量,可以设置 linger.ms 大于0,即消息在缓冲区保留的时间,超过设置的值就会被提交到服务端;通俗解释是,本该早就发出去的消息被迫至少等待了linger.ms时间,相对于这时间内积累了更多消息,批量发送 减少请求如果batch被填满或者linger.ms达到上限,满足其中一个就会被发送

3) 零拷贝ZeroCopy(SendFile)

例子:将一个File读取并发送出去(Linux有两个上下文,内核态,用户态)

传统IO操作File文件的经历了4次copy

1、调用read,将文件拷贝到了kernel内核态

2、CPU控制 kernel态的数据copy到用户态

3、调用write时,user态下的内容会copy到内核态的socket的buffer中

4、最后将内核态socket buffer的数据copy到网卡设备中传送

缺点:增加了上下文切换、浪费了2次无效拷贝(即步骤2和3)

ZeroCopy零拷贝只需要2次

1、请求kernel直接把disk的data读取到内存缓冲区2

2、socket缓冲区传输给网卡,而不是通过应用程序传输

结论:Zero copy大大提高了应用程序的性能,减少不必要的内核缓冲区跟用户缓冲区间的拷贝,从而减少CPU的开销和减少了kernel和user模式的上下文切换,达到性能的提升,对应零拷贝技术有mmap及sendfile。

在Kafka、Netty、RocketMQ等中间件里面都采用了零拷贝技术

img

4)利用Page cache+mmap

page cache用于缓存文件的页数据,页是逻辑上的概念,因此page cache是与文件系统同级的;他的作用就是加速数据的IO,写数据的时候首先写入缓存,将写入的页进行标记为dirty,之后向外部存储flush;读数据的时候就先读取缓存,没有读取到再去外部存储读取。page cache中的每个文件都是一棵树,树的每个节点都是一个页。根据文件内的偏移量就可以快速定位到所在的页。

kafka高性能总结

1)存储模型,topic多分区,每个分区多segment段

2)index索引文件查找,利用分段和稀疏索引

3)磁盘顺序写入

4)异步操作少阻塞sender和main线程,批量操作(batch)

5)页缓存Page cache,没利用JVM内存,因为容易GC影响性能

6)零拷贝ZeroCopy(SendFile)

7)更多…

06 进一步延伸

Kafka除了上述的知识点外,框架本身的设计思想我们就可以借鉴,它里面的话有很多的精髓,我们是可以参考。特别是当我们需要开发一些中间件的时候,就可以参考里面的设计思想,让可以达到事半功倍的效果,

举个多几个“栗子”,看大家是否可以想到:

1、Kafak的为什么要设计成Topic下多Partition的模式?我们可以应用在哪里?

2、消息数据存储在segment文件里面,什么时候会被删除,如果是让你设计会怎么设计?

3、消费者根据什么模式从broker获取数据的?kafak有多个分区,会从哪个分区进行消费?

4、kafka 怎么均匀地分配某个 topic 下的所有 partition 到各个消费者,从而使得消息的消费速度达到最快?

5、一个topic有70个分区,10个消费者,但是先启动一个消费者,后续再启动一个消费者,这个会怎么分配?

6、当消费者在消费过程突然宕机了,重新恢复后是从哪里消费,会有什么问题

7、如果保证生产者的消息的可靠性投递到Broker上,你会怎么做

8、Kafka多副本之间如何保持数据同步?多个副本之间怎么保障数据一致性,你就会怎么设计?

img

07 为什么要学习Kafka分布式流处理平台?

1、多数互联网公司里面用的技术栈,可以承载海量消息处理

2、三大MQ中间件之一**,在多数互联网公司中,Kafka占有率很高,大数据处理领域领头羊

3、中大型互联网公司-实时计算、离线计算、等基本都离不开Kafka

4、可以作为公司内部培训技术分享必备知识,可靠性投递、消费、高可用集群

5、如果你想成为下面的一种,则这个课程是必备**

  • 后端开发工程师-中高级工程师
  • 技术leader或者架构师
  • 高级前端/全栈工程师、运维工程师、CTO 更新必备技术栈
  • 大数据工程师、数据分析工程师
  • 从传统软件公司过渡到互联网公司的人员

针对上面N种知识点,这边推荐一个从0到1讲解大数据高性能分布式流处理平台 Kafka视频,2021年全新录制,采用全新 【Kafka 2.8】版本, 掌握**Kakfa核心概念和多种工作模式,**点对点/发布订阅模型,生产者、消费者、Broker、Topic、Partition、副本leader/follower等;

零基础+高可用集群架构,超多Kafka架构+设计思想+底层原理+互联网大厂面试题等

1)一套让你从小白到高手的Kafa核心应用+内功的视频,总共11章近54集视频,全新2.8版本,全网稀缺资料

2)课程50多集,每集10~20分钟不等,总时长12小时左右

3)一天学习4小时,操作3小时,【三天足够掌握 基础+实战+ 高可用+架构原理+面试】

08 学前基础+形式

1)学习基础:有Linux+SpringBoot基础就行,不会的话我们有对应的专题课程学习,联系客服小姐姐即可

2)视频讲解➕文字笔记➕原理分析➕交互流程图

3)配套源码➕笔记➕技术群答疑**( 购买后,文章底部联系客服进群)**

img

img

img

img

10 *关于我们*

我们专题课程并非大杂烩,网上有其他些视频几百集,多数都是东拼西凑,浪费大量学习时间,且存在使用老版本+误导教学。我们这套课程是21年全新录制,学习看这套就可以让你完全掌握Redis6.X基础+高级知识,原创正版+讲师答疑。我们的讲师团队都是一线互联网公司资深工程师,来自腾讯、YY、京东、阿里等****企业,技术实力+课程质量毋庸置疑。

我的公众号是会每天去免费更新相关教程视频,每天一小节,进步一大截,跟随者公众号学习,给自己养成良好的学习氛围与习惯。
在这里插入图片描述

课程讲师:二当家小D

介绍:曾任职于阿里巴巴担任多个项目负责人,阿里云栖社区技术专家,荔枝FM架构师,现任小滴科技CTO

工作经验:CSDN、51CTO、小滴课堂金牌讲师,累计观看用户100万+,**9年开发架构经验,精通java,**擅长分布式高并发架构,自动化压力测试,微服务容器化k8s等

以上,就是这样一门包含【诸多干货内容 + 案例实战 + 社群答疑服务】的课程,为让更多学员享受福利,最新限时优惠,同时赠送课程笔记和全部源码,只要39.8元!

👇扫码联系客服即可直接报名👇

限量100人,提前占坑

img

课程限量100份,现在名额所剩不多,长按识别上方二维码报名!

如果没了解过Kafka,那这个一定是最适合你的,让你快速掌握在项目中使用,只要2杯奶茶的钱!

分布式高并发架构,自动化压力测试,微服务容器化k8s等

以上,就是这样一门包含【诸多干货内容 + 案例实战 + 社群答疑服务】的课程,为让更多学员享受福利,最新限时优惠,同时赠送课程笔记和全部源码,只要39.8元!

👇扫码联系客服即可直接报名👇

限量100人,提前占坑

[外链图片转存中…(img-ReT1bLoh-1624241384353)]

课程限量100份,现在名额所剩不多,长按识别上方二维码报名!

如果没了解过Kafka,那这个一定是最适合你的,让你快速掌握在项目中使用,只要2杯奶茶的钱!

如果你用过Kafka但没系统学过,那这个也适合你,各种应用场景+实现原理和设计思想,也只要2杯奶茶的钱,仅39.8元!!

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

我本無心何來傷心

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值