面试
文章平均质量分 50
找bug的同学
这个作者很懒,什么都没留下…
展开
-
面试题数仓开发2024/3/5
12.spark(spark算子,和sparksql),hbase,flink。3.底层原理 hadoop mr hive yarn,spark的底层原理。7.hive和clichhouse数据库sql语法的熟悉。10.有端到端的数据项目(从数据化采集到数据可视化)4.sql做题6道(主要用日期差,连续,拉链表)8.bi 前端的展现(报表,仪表盘,自助分析)11.实时数仓开发经验。原创 2024-03-05 19:51:03 · 379 阅读 · 0 评论 -
个人数仓开发面试题记录
第一个job会将map端数据随机输入reducer,每个reducer做部分聚合操作,相同的group by key会分布在不同的reducer中。第二个job再将前面预处理过的数据按key聚合并输出结果,这样就起到了均衡的效果。对于处理小数据量的任务,我们不需要通过集群模式进行处理(因为为该任务实际触发的job执行等开销可能比实际任务的执行时间还要长),Hive可以通过本地模式在单台机器上处理所有的任务。1)map端预聚合 (预聚合的配置参数为hive.map.aggr,默认值true)原创 2024-03-04 13:05:59 · 807 阅读 · 0 评论