大数据面试题
大数据面试题
这个妹妹我见过
小菜鸡养成记
展开
-
Flink一次性语义
https://zhuanlan.zhihu.com/p/266620519原创 2021-06-18 16:00:12 · 152 阅读 · 0 评论 -
【面试题】Hbase
文章目录1. Hbase是怎么写数据的?2. HDFS和HBase各自使用场景3. Hbase的存储结构4. 热点现象(数据倾斜)怎么产生的,以及解决方法有哪些5. HBase的 rowkey 设计原则6. HBase的列簇设计7. HBase 中 compact 用途是什么,什么时候触发,分为哪两种,有什么区别1. Hbase是怎么写数据的?Client写入 -> 存入MemStore,一直到MemStore满 -> Flush成一个StoreFile,直至增长到一定阈值 -> 触发原创 2021-06-10 18:07:01 · 86 阅读 · 0 评论 -
Flink之Operator Chain
Flink原理(三)——Task(任务)、Operator Chain(算子链)和Slot(资源)原创 2021-05-24 17:40:14 · 160 阅读 · 0 评论 -
Flink两阶段提交
Flink两阶段提交原创 2021-05-24 17:10:08 · 236 阅读 · 0 评论 -
Flink面试题
Flink面试题原创 2021-05-24 17:05:19 · 135 阅读 · 0 评论 -
面试题——kafka
Kafka常问数据积压 背压机制–(增大topic分区数、增加消费者数量、增大pull数据量)重复消费 (幂等性+ack=-1)数据丢失 (确认数据被完成处理之后,再更新offset值。低级API中需要手动控制offset值。)如果一条消费没有消费完,但是offset已经提交,这个时候造成数据丢失怎么办...原创 2020-12-25 09:25:07 · 117 阅读 · 2 评论 -
【大数据开发】面试——Hive优化之大表join大表
hive-大表Join的数据偏斜hive—大表Join的数据偏斜大表Join的数据偏斜MapReduce编程模型下开发代码需要考虑数据偏斜的问题,Hive代码也是一样。数据偏斜的原因包括以下两点:Map输出key数量极少,导致reduce端退化为单机作业。Map输出key分布不均,少量key对应大量value,导致reduce端单机瓶颈。Hive中我们使用MapJoin解决数据偏斜的问题,即将其中的某个表(全量)分发到所有Map端进行Join,从而避免了reduce。这要求分发的表可以被全量载原创 2020-12-21 11:27:58 · 2096 阅读 · 0 评论 -
【大数据开发】面试题②
这里记录的是一些比较重要又没有记清楚的问题1、什么是布隆过滤器本质上布隆过滤器是一种数据结构,比较巧妙的概率型数据结构,特点是高效地插入和查询。根据查询结果可以用来告诉你 某样东西一定不存在或者可能存在 这句话是该算法的核心。相比于传统的 List、Set、Map 等数据结构,它更高效、占用空间更少,但是缺点是其返回的结果是概率性的,而不是确切的,同时布隆过滤器还有一个缺陷就是数据只能插入不能删除。2、数据如何存入布隆过滤器布隆过滤器是由一个很长的bit数组和一系列哈希函数组成的。.原创 2020-11-15 10:03:27 · 119 阅读 · 0 评论 -
【大数据开发】面试题①
1. HDFS读写流程?2. MR的工作原理3. RPC通信机制4. Yarn的工作原理5. Zookeeper的选举机制Epoch>zxid>serverId数据 ID服务器中存放的最新数据 version。值越大说明数据越新,在选举算法中数据越新权重越大。逻辑时钟也叫投票的次数,同一轮投票过程中的逻辑时钟值是相同的。每投完一次票这个数据就会增加,然后与接收到的其它服务器返回的投票信息中的数值相比, 根据不同的值做出不同的判断。5.1全新集群选举假设目前有 5原创 2020-11-15 10:02:55 · 148 阅读 · 0 评论 -
【大数据开发】HDFS小文件合并四种方式
直接写数据到HDFS时,我们不可避免的要处理小文件问题,一般有1.落地之前增大batch(即增大了延迟)2.coalesce(分区合并)3.外部程序Merge4.Append(如果文件没有达到指定大小,下一个批次写数据的时候不创建新文件,而是和已存在的小文件合并)四种方式,各有其使用场景,如论哪种方式,无疑会增加我们的工作量。但是如果通过hudi写入数据,小文件的问题hudi自身会帮你解决,hudi自身解决的方案是`方法...原创 2020-11-05 12:00:04 · 2375 阅读 · 0 评论