如何设计一个MQ

abcafdsgr123456789

于 2024-04-25 16:31:53 发布

阅读量643

点赞数 19

分类专栏：系统 JAVA后端 SpringBoot 文章标签： java spring 后端

本文链接：https://blog.csdn.net/abcafdsgr123456789/article/details/138176804

版权

JAVA后端同时被 3 个专栏收录

38 篇文章 0 订阅

订阅专栏

SpringBoot

10 篇文章 0 订阅

订阅专栏

系统

6 篇文章 0 订阅

订阅专栏

一、为什么使用MQ

比较核心的有3个业务场景：解耦、异步、削峰
1.1、消息队列有什么优点和缺点啊？
优点上面已经说了，就是在特殊场景下有其对应的好处，解耦、异步、削峰
缺点呢？显而易⻅的

系统可用性降低：

系统引入的外部依赖越多，越容易挂掉，本来你就是A系统调用BCD三个系统的接口就好了，人ABCD四个系统好好的，没啥问题，你偏加个MQ进来，万一MQ挂了咋整？MQ挂了，整套系统崩溃了，你不就完了么。

系统复杂性提高：

硬生生加个MQ进来，你怎么保证消息没有重复消费？怎么处理消息丢失的情况？怎么保证消息传递的顺序性？头大头大，问题一大堆，痛苦不已

一致性问题：

A系统处理完了直接返回成功了，人都以为你这个请求就成功了；但是问题是，要是BCD三个系统那里，BD两个系统写库成功了，结果C系统写库失败了，咋整？你这数据就不一致了。所以消息队列实际是一种非常复杂的架构，你引入它有很多好处，但是也得针对它带来的坏处做各种额外的技术方案和架构来规避掉，最好之后，你会发现，妈呀，系统复杂度提升了一个数量级，也许是复杂了10倍。但是关键时刻，用，还是得用的。

二、主流的消息队列

在这里插入图片描述

三、计算机构成

CPU、内存、硬盘、网卡
现在CPU都是多核，这就造成数据原子性问题
CPU快，内存慢，CPU需要等到内存（例如存储、拉取）。CPU解决的办法就是缓存。
CPU缓存分为3级：L1;L2;L3作用：进一步提高数据的访问速度，同时降低内存延迟，尤其在大数据量计算时，能显著提升处理器的性能，CPU需要处理数据时，首先会检查一级缓存(L1)，如果一级缓存中找不到所需数据，则会查看二级缓存(L2)，如果二级缓存中也没有该数据，CPU就会访问三级缓存。如果三级缓存中仍然没有所需数据，CPU最终会从内存中调用这些数据。通过这种方式，三级缓存减少了直接从内存中读取数据的次数，从而提高了程序的运行效率。
机械磁盘影响性能因素：转速（寻址）。固态磁盘与机械磁盘区别https://baijiahao.baidu.com/s?id=1765673312500037801&wfr=spider&for=pc

三、如何设计一款MQ

在这里插入图片描述

3.1、可伸缩性就是需要的时候快速扩容，就可以增加吞吐量和容量
那怎么搞？设计个分布式的系统呗，参照一下kafka的设计理念，broker->topic->partition，每个partition放一个机器，就存一部分数据。如果现在资源不够了，简单啊，给topic增加partition，然后做数据迁移，增加机器，不就可以存放更多数据，提供更高的吞吐量了3.2高可用集群分布式架构主从

3.2.1、rabbitmq高可用
rabbitmq有三种模式：单机模式，普通集群模式，镜像集群模式

3.2.1.1、单机模式
就是demo级别的，一般就是你本地启动了玩玩儿的，没人生产用单机模式

3.2.1.2、普通集群模式
就是在多台机器上启动多个rabbitmq实例，每个机器启动一个。但是你创建的queue，只会放在一个rabbtimq实例上，但是每个实例都同步queue的元数据。完了你消费的时候，实际上如果连接到了另外一个实例，那么那个实例会从queue所在实例上拉取数据过来。
这种方式确实很麻烦，也不怎么好，没做到所谓的分布式，就是个普通集群。因为这导致你要么消费者每次随机连接一个实例然后拉取数据，要么固定连接那个queue所在实例消费数据，前者有数据拉取的开销，后者导致单实例性能瓶颈。
而且如果那个放queue的实例宕机了，会导致接下来其他实例就无法从那个实例拉取，如果你开启了消息持久化，让rabbitmq落地存储消息的话，消息不一定会丢，得等这个实例恢复了，然后才可以继续从这个queue拉取数据。
所以这个事儿就比较尴尬了，这就没有什么所谓的高可用性可言了，这方案主要是提高吞吐量的，就是说让集群中多个节点来服务某个queue的读写操作。
在这里插入图片描述
3.2.1.3、镜像集群模式
这种模式，才是所谓的rabbitmq的高可用模式，跟普通集群模式不一样的是，你创建的queue，无论元数据还是queue里的消息都会存在于多个实例上，然后每次你写消息到queue的时候，都会自动把消息到多个实例的queue里进行消息同步。
这样的话，好处在于，你任何一个机器宕机了，没事儿，别的机器都可以用。坏处在于，第一，这个性能开销也太大了吧，消息同步所有机器，导致网络带宽压力和消耗很重！第二，这么玩儿，就没有扩展性可言了，如果某个queue负载很重，你加机器，新增的机器也包含了这个queue的所有数据，并没有办法线性扩展你的queue
那么怎么开启这个镜像集群模式呢？我这里简单说一下，避免面试人家问你你不知道，其实很简单rabbitmq有很好的管理控制台，就是在后台新增一个策略，这个策略是镜像集群模式的策略，指定的时候可以要求数据同步到所有节点的，也可以要求就同步到指定数量的节点，然后你再次创建queue的时候，应用这个策略，就会自动将数据同步到其他的节点上去了。
在这里插入图片描述
3.2.2、kafka高可用kafka
一个最基本的架构认识：多个broker组成，每个broker是一个节点；你创建一个topic，这个topic可以划分为多个partition，每个partition可以存在于不同的broker上，每个partition就放一部分数据。
这就是天然的分布式消息队列，就是说一个topic的数据，是分散放在多个机器上的，每个机器就放一部分数据。实际上rabbitmq之类的，并不是分布式消息队列，他就是传统的消息队列，只不过提供了一些集群、HA的机制而已，因为无论怎么玩儿，rabbitmq一个queue的数据都是放在一个节点里的，镜像集群下，也是每个节点都放这个queue的完整数据。
kafka0.8以前，是没有HA机制的，就是任何一个broker宕机了，那个broker上的partition就废了，没法写也没法读，没有什么高可用性可言。
kafka0.8以后，提供了HA机制，就是replica副本机制。每个partition的数据都会同步到吉他机器上，形成自己的多个replica副本。然后所有replica会选举一个leader出来，那么生产和消费都跟这个leader打交道，然后其他replica就是follower。写的时候，leader会负责把数据同步到所有follower上去，读的时候就直接读leader上数据即可。只能读写leader？很简单，要是你可以随意读写每个follower，那么就要care数据一致性的问题，系统复杂度太高，很容易出问题。kafka会均匀的将一个partition的所有replica分布在不同的机器上，这样才可以提高容错性。
这么搞，就有所谓的高可用性了，因为如果某个broker宕机了，没事儿，那个broker上面的partition在其他机器上都有副本的，如果这上面有某个partition的leader，那么此时会重新选举一个新的leader出来，大家继续读写那个新的leader即可。这就有所谓的高可用性了。
写数据的时候，生产者就写leader，然后leader将数据落地写本地磁盘，接着其他follower自己主动从leader来pull数据。一旦所有follower同步好数据了，就会发送ack给leader，leader收到所有follower的ack之后，就会返回写成功的消息给生产者。
（当然，这只是其中一种模式，还可以适当调整这个行为）消费的时候，只会从leader去读，但是只有一个消息已经被所有follower都同步成功返回ack的时候，这个消息才会被消费者读到。
在这里插入图片描述

3.3、顺序性
文本追加
时序数据库
1个消费者
你在mysql里增删改一条数据，对应出来了增删改3条binlog，接着这三条binlog发送到MQ里面，到消费出来依次执行，起码得保证人家是按照顺序来的吧？不然本来是：增加、修改、删除；你楞是换了顺序给执行成删除、修改、增加，不全错了么。
先看看顺序会错乱的俩场景
rabbitmq：一个queue，多个consumer，这不明显乱了
在这里插入图片描述
kafka：一个topic，一个partition，一个consumer，内部多线程，这不也明显乱了

那如何保证消息的顺序性呢
rabbitmq：拆分多个queue，每个queue一个consumer，就是多一些queue而已，确实是麻烦点；或者就一个queue但是对应一个consumer，然后这个consumer内部用内存队列做排队，然后分发给底层不同的worker来处理
在这里插入图片描述
kafka：一个topic，一个partition，一个consumer，内部单线程消费，写N个内存queue，然后N个线程分别消费一个内存queue即可

3.4、可靠性可靠性：如何防止数据丢失，重复、幂等
持久化
应答
消息ID
生成者，在哪些情况下会丢失数据？如何防止？
消费者，在哪些情况下会丢失数据？如何防止？
3.6、高性能（吞吐量）持久化顺序读写内存存储零拷⻉

abcafdsgr123456789

关注

19
点赞
踩
30

收藏

觉得还不错? 一键收藏
0
评论
如何设计一个MQ

“本文深入探讨了消息队列（MQ）的基本概念、应用场景及实现方式。文章首先介绍了MQ的核心原理和功能特点，然后详细分析了MQ在分布式系统、微服务架构等领域的应用场景。此外，文章还探讨了MQ的性能优化策略，包括消息路由、并发控制等方面。通过本文的阅读，读者将全面了解MQ的工作原理和最佳实践，为实际应用提供有力支持
复制链接

扫一扫