Apache Kafka是一个分布式消息发布订阅系统。它最初由LinkedIn公司基于独特的设计实现为一个分布式的日志提交系统(a distributed commit log),之后成为Apache项目的一部分。Kafka性能高效、可扩展良好并且可持久化。它的分区特性,可复制和可容错都是其不错的特性。
2.1 特点
kafka是LinkedIn开源的分布式发布-定于消息系统,目前归属于Apache顶级项目。Kafka主要特点是给予Pull的模式来处理消费消息,追求高吞吐量,一开始的目的就是用于日志收集和传输。0.8版本开始支持复制,不支持事务,对消息的重复、丢失、错误没有严格要求,适合产生大量数据的互联网服务的数据收集业务。这里可以看出kafka只关注吞吐量。因此,在使用kafka的时候,注意业务是否允许消息重复、丢失、错误等。如果允许的话,kafka是最合适的。因为它的性能是最高的。即使在廉价的服务器上,也能支持单机每秒100k条以上的数据量。所以说它的性能是非常好的。kafka仅仅使用内存进行存储,只要有足够的内存,就能够足够大的吞吐量。因为kafka并没有在磁盘上进行读写。
-
快速持久化:可以在O(1)的系统开销下进行消息持久化;
-
高吞吐:在一台普通的服务器上既可以达到10W/s的吞吐速率;
-
完全的分布式系统:Broker、Producer和Consumer都原生自动支持分布式,自动实现负载均衡;
-
支持同步和异步复制两种高可用机制;
-
支持数据批量发送和拉取;
-
零拷贝技术(zero-copy):减少IO操作步骤,提高系统吞吐量;
-
数据迁移、扩容对用户透明;
-
无需停机即可扩展机器;
-
其他特性:丰富的消息拉取模型、高效订阅者水平扩展、实时的消息订阅、亿级的消息堆积能力、定期删除机制
2.2 架构模式
kafka架构模式
主要依赖Zookeeper进行协调管理,每一个kafka可以进行副本复制,也就是数据同步。假如说:有一条数据落在第一个节点上,那么就会进行repilicate 复制,这样在运行中每个节点就有一份数据,一共就有三分数据。如果说其中一台宕机,也能从另外两个节点中获取数据。部署方案建议:跨机房部署。即使有一台机子宕机,在数据上也是没有问题的。如果在整个地点宕机了。那么我们的数据也就丢失了。这也是大公司需要考虑的异地灾备。当然kafka主要关注性能的,对于数据的可靠性关注并高。
2.3 小结
优点:
-
客户端语言丰富:支持Java、.Net、PHP、Ruby、Python、Go等多种语言;
-
高性能:单机写入TPS约在100万条/秒,消息大小10个字节;
-
提供完全分布式架构,并有replica机制,拥有较高的可用性和可靠性,理论上支持消息无限堆积;
-
支持批量操作;
-
消费者采用Pull方式获取消息。消息有序,通过控制能够保证所有消息被消费且仅被消费一次;
-
有优秀的第三方KafkaWeb管理界面Kafka-Manager;
-
在日志领域比较成熟,被多家公司和多个开源项目使用。
缺点:
-
Kafka单机超过64个队列/分区时,Load时会发生明显的飙高现象。队列越多,负载越高,发送消息响应时间变长;
-
使用短轮询方式,实时性取决于轮询间隔时间;
-
消费失败不支持重试;
-
支持消息顺序,但是一台代理宕机后,就会产生消息乱序;
-
社区更新较慢。
RocketMQ是阿里开源的消息中间件,目前也已经孵化为Apache顶级项目。用Java语言实现,在设计时参考了Kafka,并做出了自己的一些改进,消息可靠性上比Kafka更好。RocketMQ在阿里内部被广泛应用在订单,交易,充值,流计算,消息推送,日志流式处理,binglog分发等场景。
3.1 特点
核心的特点如下:
-
保证消息的顺序性,消息按顺序消费。
-
提供了丰富的拉取和处理模式。
-
高效的订阅者,也可以进行水平扩展。
-
承载上亿级别的消息堆积能力。
3.2 架构模式
RocketMQ集群架构模式
1.Master-Slave(主从)模式
2.双Master模式。
3.双主双从模式。
4.多主多从模式。
5.一主多从模式。
可选方案许多种可供选择。
等等,参考了许多开源的设方式。
集群拓扑
阿里觉得Zookeeper性能太低,自己搭建了NameServer,这个NameServer代码也十分精简,一共也就几百行代码。有兴趣可以去读源码。
3.3 小结
优点:
-
单机支持1万以上持久化队列;
-
RocketMQ的所有消息都是持久化的,先写入系统PAGECACHE,然后刷盘,可以保证内存与磁盘都有一份数据,而访问时,直接从内存读取。
-
模型简单,接口易用(JMS的接口很多场合并不太实用);
-
性能非常好,可以允许大量堆积消息在Broker中;
-
支持多种消费模式,包括集群消费、广播消费等;
-
各个环节分布式扩展设计,支持主从和高可用;
-
开发度较活跃,版本更新很快。
缺点:
-
支持的 客户端语言不多,目前是Java及C++,其中C++还不成熟
-
维护RocketMQ需要专业的团队
-
商业版收费,有许多功能是不对外提供的。
-
没有在MQ核心里实现JMS等接口
1.ActiveMQ,性能不是很好,因此在高并发的场景下,直接被pass掉了。它的Api很完善,在中小型互联网公司可以去使用。
2.kafka,主要强调高性能,如果对业务需要可靠性消息的投递的时候。那么就不能够选择kafka了。但是如果做一些日志收集呢,kafka还是很好的。因为kafka的性能是十分好的。
3.RocketMQ,它的特点非常好。它高性能、满足可靠性、分布式事物、支持水平扩展、上亿级别的消息堆积、主从之间的切换等等。MQ的所有优点它基本都满足。但是它最大的缺点:商业版收费。因此它有许多功能是不对外提供的。
那么说完这三种MQ还有没有其他MQ能够选择呢?有的,也是这次学习的MQ——RabbitMQ。
RabbitMQ于2007年发布,是一个在AMQP(高级消息队列协议)基础上完成的,可复用的企业消息系统,是当前最主流的消息中间件之一。
5.1 特点
RabbitMQ是使用Erlang语言开发的开源消息队列系统,基于AMQP协议来实现。
AMQP的主要特征是面向消息、队列、路由(包括点对点和发布/订阅)、可靠性、安全。
AMQP协议更多用在企业系统内,对数据一致性、稳定性和可靠性要求很高的场景,对性能和吞吐量的要求还在其次。
RabbitMQ的可靠性是非常好的,数据能够保证百分之百的不丢失。可以使用镜像队列,它的稳定性非常好。所以说在我们互联网的金融行业。对数据的稳定性和可靠性要求都非常高的情况下,我们都会选择RabbitMQ。当然没有kafka性能好,但是要比AvtiveMQ性能要好很多。也可以自己做一些性能的优化。
RabbitMQ可以构建异地双活架构,包括每一个节点存储方式可以采用磁盘或者内存的方式。
RabbitMQ的集群架构
图中说的就是,我们可以采用三个节点作为RabbitMQ的一组集群,当然可以有许多组。节点与节点之间采用mirror queue。基于这种方式,能够保证数据百分之百的不丢失。
前端可以去做负载均衡,比如负载均衡组件:HA-proxy ,进行TCP级别的负载。
如果想做一个高可用的话,就需要借助keepAlived做一个高可用的配置。
比如前端加一个虚拟的VIP,通过VIP路由到指定的负载均衡组件,再有它路由到RabbtMQ的某一个节点。
这就是整个RabbitMQ集群架构。
能够实现非常完善,高可用并且性能也十分好,稳定性超强。并且有各种集群恢复手段。
最后
我想问下大家当初选择做程序员的初衷是什么?有思考过这个问题吗?高薪?热爱?
既然入了这行就应该知道,这个行业是靠本事吃饭的,你想要拿高薪没有问题,请好好磨练自己的技术,不要抱怨。有的人通过培训可以让自己成长,有些人可以通过自律强大的自学能力成长,如果你两者都不占,还怎么拿高薪?
架构师是很多程序员的职业目标,一个好的架构师是不愁所谓的35岁高龄门槛的,到了那个时候,照样大把的企业挖他。为什么很多人想进阿里巴巴,无非不是福利待遇好以及优质的人脉资源,这对个人职业发展是有非常大帮助的。
如果你也想成为一名好的架构师,那或许这份Java核心架构笔记你需要阅读阅读,希望能够对你的职业发展有所帮助。
中高级开发必知必会:
可以通过自律强大的自学能力成长,如果你两者都不占,还怎么拿高薪?
架构师是很多程序员的职业目标,一个好的架构师是不愁所谓的35岁高龄门槛的,到了那个时候,照样大把的企业挖他。为什么很多人想进阿里巴巴,无非不是福利待遇好以及优质的人脉资源,这对个人职业发展是有非常大帮助的。
如果你也想成为一名好的架构师,那或许这份Java核心架构笔记你需要阅读阅读,希望能够对你的职业发展有所帮助。
中高级开发必知必会:
[外链图片转存中…(img-ewk6Pjfq-1720116793308)]