java面试设计题目,阿里P7大牛整理

前言

互联网时代,瞬息万变。一个小小的走错,就有可能落后于别人。我们没办法去预测任何行业、任何职业未来十年会怎么样,因为未来谁都不能确定。只能说只要有互联网存在,程序员依然是个高薪热门行业。只要跟随着时代的脚步,学习新的知识。程序员是不可能会消失的,或者说不可能会没钱赚的。

我们经常可以听到很多人说,程序员是一个吃青春饭的行当。因为大多数人认为这是一个需要高强度脑力劳动的工种,而30岁、40岁,甚至50岁的程序员身体机能逐渐弱化,家庭琐事缠身,已经不能再进行这样高强度的工作了。

那么,这样的说法是对的么?

其实有这种想法的人,已经犯了一个根本性的错误,就是把十年后的程序员工作效率等同于现在的程序员效率。

我们想想一个程序员工作了十年,已经对这些业务熟悉的不能再熟悉,还会是当年那个调试代码调试半天的年轻人吗?如果你说是,只能说明你这十年什么都没学到,只是在浪费青春。

那么一名优秀的程序员应当具备哪些技能呢?

Kafka的多副本冗余设计

不管是传统的基于关系型数据库设计的系统,还是分布式的如zookeeperredisKafkaHDFS等等,实现高可用的办法通常是采用冗余设计,通过冗余来解决节点宕机不可用问题。

首先简单了解Kafka的几个概念:

  • 物理模型

  • 逻辑模型

  • Broker(节点):Kafka服务节点,简单来说一个Broker就是一台Kafka服务器,一个物理节点。

  • Topic(主题):在Kafka中消息以主题为单位进行归类,每个主题都有一个Topic Name,生产者根据Topic Name将消息发送到特定的Topic,消费者则同样根据Topic Name从对应的Topic进行消费。

  • Partition(分区):Topic(主题)是消息归类的一个单位,但每一个主题还能再细分为一个或多个Partition(分区),一个分区只能属于一个主题。主题和分区都是逻辑上的概念,举个例子,消息1和消息2都发送到主题1,它们可能进入同一个分区也可能进入不同的分区(所以同一个主题下的不同分区包含的消息是不同的),之后便会发送到分区对应的Broker节点上。

  • Offset(偏移量):分区可以看作是一个只进不出的队列(Kafka只保证一个分区内的消息是有序的),消息会往这个队列的尾部追加,每个消息进入分区后都会有一个偏移量,标识该消息在该分区中的位置,消费者要消费该消息就是通过偏移量来识别。

其实,根据上述的几个概念,是不是也多少猜到了Kafka的多副本冗余设计实现了?别急,咱继续往下看。

在Kafka 0.8版本以前,是没有多副本冗余机制的,一旦一个节点挂掉,那么这个节点上的所有Partition的数据就无法再被消费。这就等于发送到Topic的有一部分数据丢失了。

在0.8版本后引入副本记者则很好地解决宕机后数据丢失的问题。副本是以Topic中每个Partition的数据为单位,每个Partition的数据会同步到其他物理节点上,形成多个副本。

每个Partition的副本都包括一个Leader副本和多个Follower副本,Leader由所有的副本共同选举得出,其他副本则都为Follower副本。在生产者写或者消费者读的时候,都只会与Leader打交道,在写入数据后Follower就会来拉取数据进行数据同步。

就这么简单?是的,基于上面这张多副本架构图

点击领取2024完整开源项目《一线大厂Java面试题解析+后端开发学习笔记+最新架构讲解视频+实战项目源码讲义》

就实现了Kafka的高可用。当某个Broker挂掉了,甭担心,这个Broker上的Partition在其他Broker节点上还有副本。你说如果挂掉的是Leader怎么办?那就在Follower中在选举出一个Leader即可,生产者和消费者又可以和新的Leader愉快地玩耍了,这就是高可用。

你可能还有疑问,那要多少个副本才算够用?Follower和Leader之间没有完全同步怎么办?一个节点宕机后Leader的选举规则是什么?

直接抛结论:

多少个副本才算够用? 副本肯定越多越能保证Kafka的高可用,但越多的副本意味着网络、磁盘资源的消耗更多,性能会有所下降,通常来说副本数为3即可保证高可用,极端情况下将replication-factor参数调大即可。

Follower和Lead之间没有完全同步怎么办? Follower和Leader之间并不是完全同步,但也不是完全异步,而是采用一种ISR机制(In-Sync Replica)。每个Leader会动态维护一个ISR列表,该列表里存储的是和Leader基本同步的Follower。如果有Follower由于网络、GC等原因而没有向Leader发起拉取数据请求,此时Follower相对于Leader是不同步的,则会被踢出ISR列表。所以说,ISR列表中的Follower都是跟得上Leader的副本。

一个节点宕机后Leader的选举规则是什么? 分布式相关的选举规则有很多,像Zookeeper的ZabRaftViewstamped Replication、微软的PacificA等。而Kafka的Leader选举思路很简单,基于我们上述提到的ISR列表,当宕机后会从所有副本中顺序查找,如果查找到的副本在ISR列表中,则当选为Leader。另外还要保证前任Leader已经是退位状态了,否则会出现脑裂情况(有两个Leader)。怎么保证?Kafka通过设置了一个controller来保证只有一个Leader。

Ack参数决定了可靠程度

另外,这里补充一个面试考Kafka高可用必备知识点:request.required.asks参数。

Asks这个参数是生产者客户端的重要配置,发送消息的时候就可设置这个参数。该参数有三个值可配置:0、1、All

第一种是设为0,意思是生产者把消息发送出去之后,之后这消息是死是活咱就不管了,有那么点发后即忘的意思,说出去的话就不负责了。不负责自然这消息就有可能丢失,那就把可用性也丢失了。

第二种是设为1,意思是生产者把消息发送出去之后,这消息只要顺利传达给了Leader,其他Follower有没有同步就无所谓了。存在一种情况,Leader刚收到了消息,Follower还没来得及同步Broker就宕机了,但生产者已经认为消息发送成功了,那么此时消息就丢失了。注意,设为1是Kafka的默认配置!!!可见Kafka的默认配置也不是那么高可用,而是对高可用和高吞吐量做了权衡折中。

第三种是设为All(或者-1),意思是生产者把消息发送出去之后,不仅Leader要接收到,ISR列表中的Follower也要同步到,生产者才会任务消息发送成功。

进一步思考,Asks=All就不会出现丢失消息的情况吗?答案是否。当ISR列表只剩Leader的情况下,Asks=All相当于Asks=1,这种情况下如果节点宕机了,还能保证数据不丢失吗?因此只有在Asks=All并且有ISR中有两个副本的情况下才能保证数据不丢失。

解决问题

绕了一大圈,了解了Kafka的高可用机制,终于回到我们一开始的问题本身,Kafka的一个节点宕机后为什么不可用?

我在开发测试环境配置的Broker节点数是3,Topic是副本数为3,Partition数为6,Asks参数为1。

当三个节点中某个节点宕机后,集群首先会怎么做?没错,正如我们上面所说的,集群发现有Partition的Leader失效了,这个时候就要从ISR列表中重新选举Leader。如果ISR列表为空是不是就不可用了?并不会,而是从Partition存活的副本中选择一个作为Leader,不过这就有潜在的数据丢失的隐患了。

所以,只要将Topic副本个数设置为和Broker个数一样,Kafka的多副本冗余设计是可以保证高可用的,不会出现一宕机就不可用的情况(不过需要注意的是Kafka有一个保护策略,当一半以上的节点不可用时Kafka就会停止)。那仔细一想,Kafka上是不是有副本个数为1的Topic?

问题出在了__consumer_offset上,__consumer_offset是一个Kafka自动创建的Topic,用来存储消费者消费的offset(偏移量)信息,默认Partition数为50。而就是这个Topic,它的默认副本数为1。如果所有的Partition都存在于同一台机器上,那就是很明显的单点故障了!当将存储__consumer_offset的Partition的Broker给Kill后,会发现所有的消费者都停止消费了。

这个问题怎么解决?

第一点,需要将__consumer_offset删除,注意这个Topic时Kafka内置的Topic,无法用命令删除,我是通过将logs删了来实现删除。

第二点,需要通过设置offsets.topic.replication.factor为3来将__consumer_offset的副本数改为3。

通过将__consumer_offset也做副本冗余后来解决某个节点宕机后消费者的消费问题。

最后,关于为什么__consumer_offset的Partition会出现只存储在一个Broker上而不是分布在各个Broker上感到困惑,如果有朋友了解的烦请指教~

最后

我还通过一些渠道整理了一些大厂真实面试主要有:蚂蚁金服、拼多多、阿里云、百度、唯品会、携程、丰巢科技、乐信、软通动力、OPPO、银盛支付、中国平安等初,中级,高级Java面试题集合,附带超详细答案,希望能帮助到大家。

新鲜出炉的蚂蚁金服面经,熬夜整理出来的答案,已有千人收藏

还有专门针对JVM、SPringBoot、SpringCloud、数据库、Linux、缓存、消息中间件、源码等相关面试题。

新鲜出炉的蚂蚁金服面经,熬夜整理出来的答案,已有千人收藏

还有专门针对JVM、SPringBoot、SpringCloud、数据库、Linux、缓存、消息中间件、源码等相关面试题。

[外链图片转存中…(img-SYVYGblr-1709752466521)]

本文已被CODING开源项目:【一线大厂Java面试题解析+核心总结学习笔记+最新讲解视频+实战项目源码】收录

  • 16
    点赞
  • 23
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
阿里巴巴是中国最大的电子商务公司之一,拥有众多的技术岗位,其中包括Java开发工程师。作为P7级别的Java面试,通常会涉及以下几个方面的内容: 1. Java基础知识:包括Java语言的特性、面向对象编程、集合框架、多线程、IO操作等。面试官可能会深入询问Java的内存模型、垃圾回收机制等底层知识。 2. 数据结构与算法:面试官可能会考察你对常用数据结构(如数组、链表、栈、队列、树等)的理解和应用,以及常见算法(如排序、查找、动态规划等)的实现和优化。 3. 分布式系统与微服务架构:阿里巴巴是一个大规模分布式系统的典型代表,面试中可能会涉及分布式系统的设计原则、CAP理论、一致性算法等。此外,对于微服务架构的理解和实践经验也是重要的考察点。 4. 高可用与性能优化:面试官可能会关注你在高可用性和性能优化方面的经验,包括负载均衡、容灾备份、故障恢复、性能监控与调优等。 5. 设计模式与架构思维:面试官可能会要求你解释常见的设计模式,并能够在实际场景中应用。此外,对于系统架构的理解和设计能力也是重要的考察点。 6. 开源技术与工程实践:阿里巴巴非常注重开源技术的应用和贡献,面试中可能会涉及你对一些开源框架和工具的了解和使用经验,以及你在团队协作、代码质量管理等方面的实践经验。 以上是一些可能涉及到的面试内容,具体面试题目和难度会根据职位要求和面试官的个人喜好而有所不同。在准备面试时,建议你系统地复习Java基础知识、数据结构与算法,并结合自己的项目经验进行思考和总结。另外,多参加一些模拟面试和刷题训练也是提高面试技巧和应对能力的有效方式。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值