数据分析师面试题库
因为相⽐于与数据库是为了数据的储存,更新⽽设计的,数据仓库则是更多为了数据的查询。产⽣原因 1.group by维度过小,某值的数量过多(后果:处理某值的reduce⾮常耗时) 2.去重 distinct count(distinct xx) 某特殊值过多(后果:处理此特殊值的reduce耗时) 3.连接 join,count(distinct),group by,join等操作,这些都会触发Shuffle动作,⼀旦触发,所有相同key的值就会拉到⼀个或⼏个节点上,就容易发⽣单点问题。...........
转载
2022-08-16 16:34:55 ·
334 阅读 ·
2 评论