大数据面试题
CSDN_BlackCat
这个作者很懒,什么都没留下…
展开
-
kafka相关面试题及答案
1、kafka中的ISR、AR代表什么?ISR:与leader保持同步的follower集合。AR:代表分区里边的所有副本。2、kafka中的hw、Leo分别代表什么?Leo:每个副本最后一条消息的offsetHw:一个分区中所有副本中最小的offset3、kafka中是怎样体现消息的顺序性的?每个分区的每条消息都会有一个offset,只能保证区内有序。4.kafka中的分区器、序列化器、拦截器什么?它们之间的处理顺序是什么?拦截器→序列化→分区器5、Kafka生产者客户端的整体结构是.原创 2020-07-09 14:41:25 · 583 阅读 · 0 评论 -
性能调优
一、spark那些算子操作涉及到了shuffle?1、repartition类的操作:比如repartition、repartitionAndSortWithinPartitions、coalesce等2、byKey类的操作:比如reduceByKey、groupByKey、sortByKey等3、join类的操作:比如join、cogroup等重分区: 一般会shuffle,因为需要在整个集群中,对之前所有的分区的数据进行随机,均匀的打乱,然后把数据放入下游新的指定数量的分区内byKey类的操作原创 2020-06-30 17:15:09 · 104 阅读 · 0 评论