面试
文章平均质量分 60
小小可凡
这个作者很懒,什么都没留下…
展开
-
kafka面试
1. Kafka 分布式的情况下,如何保证消息的顺序?1. kafka的单个分区partition中的数据是有序的可以将相同的key发送到一个分区中Kafka 分布式的单位是 Partition。如何保证消息有序,需要分几个情况讨论。同一个 Partition 用一个 write ahead log 组织,所以可以保证 FIFO 的顺序。不同 Partition 之间不能保证顺序。但是绝大多数用户都可以通过 message key 来定义,因为同一个 key 的 message 可以保证只发原创 2021-11-05 16:37:20 · 99 阅读 · 0 评论 -
spark 面试题
1. spark 数据倾斜2. spark shuffer过程3. spark join的策略解析1. spark 数据倾斜Spark 数据倾斜的几种场景以及对应的解决方案,包括避免数据源倾斜,调整并行度,使用自定义 Partitioner,使用 Map 侧 Join 代替 Reduce 侧 Join(内存表合并),给倾斜 Key 加上随机前缀等。什么是数据倾斜 对 Spark/Hadoop 这样的大数据系统来讲,数据量大并不可怕,可怕的是数据倾斜。数据倾斜指的是,并行处理的数据集中,某一部分(如原创 2021-11-05 16:36:38 · 903 阅读 · 0 评论 -
Flink面试总结`持续更新中........
以前都是自己往小本本上总结, 后来小本本没了, 写到这里吧! 有问题请留言, 先谢过了1. Flink 侧流输出我们结合实际案例说明一下flink侧输出的用法,假设我们的需求是实时的从kafka接收生产数据,我们需要对迟到超过一定时长的数据或者不符合业务的数据另行处理:第一步:定义OutputTag// 定义 OutputTag 侧输出的数据格式可以不应和主流的数据格式一样val delayOutputTag = OutputTag[String]("delay-side-output")原创 2021-10-29 15:54:21 · 396 阅读 · 0 评论