1.广播变量和driver 中定义的普通变量的区别
2.数据倾斜 优化的方式,怎样定位问题,有什么样的解决方案,有没有调参的方式能够解决的
3.模型:
(1)怎样评判汇总层的数据模型的好坏
(2)怎样应对业务变化
(3)分层的原则
4.实时流join怎么做的,采用实时流相互等待借助外部缓存join,如果数据本身有重复,会进行多次join怎么解决的,如果数据延迟时间特别长问题怎么解决的
5.spark trasform操作和action操作有什么区别,宽依赖和窄依赖怎么划分的,为什么需要在宽依赖处进行stage划分,为什么需要进行shuffle操作
6.排序算法(快排)
7.mysql事务隔离级别
8.innodb 和 myisam区别
9.job启动慢可能的原因是什么
10.各种数据倾斜,map端倾斜,join倾斜,rduce倾斜 及解决方案(参数角度,和代码角度)
11.仓库建模方法
(1)维度模型(模型设计有什么原则,怎样保证一致性,模型分层原则,主题是怎么划分的,为什么要划分四层有什么好处,什么是星型模型和雪花模型)
(2)ER模型
(3)Anchor模型
(4)Data Vault模型
Anchor模型跟Data Vault模型对比雪花模型有什么区别
仓库建模为什么要采用维度建模而不是其他模型,各模型有什么优缺点
12.shuffer过程,hbase架构与数据检索过程
2.数据倾斜 优化的方式,怎样定位问题,有什么样的解决方案,有没有调参的方式能够解决的
3.模型:
(1)怎样评判汇总层的数据模型的好坏
(2)怎样应对业务变化
(3)分层的原则
4.实时流join怎么做的,采用实时流相互等待借助外部缓存join,如果数据本身有重复,会进行多次join怎么解决的,如果数据延迟时间特别长问题怎么解决的
5.spark trasform操作和action操作有什么区别,宽依赖和窄依赖怎么划分的,为什么需要在宽依赖处进行stage划分,为什么需要进行shuffle操作
6.排序算法(快排)
7.mysql事务隔离级别
8.innodb 和 myisam区别
9.job启动慢可能的原因是什么
10.各种数据倾斜,map端倾斜,join倾斜,rduce倾斜 及解决方案(参数角度,和代码角度)
11.仓库建模方法
(1)维度模型(模型设计有什么原则,怎样保证一致性,模型分层原则,主题是怎么划分的,为什么要划分四层有什么好处,什么是星型模型和雪花模型)
(2)ER模型
(3)Anchor模型
(4)Data Vault模型
Anchor模型跟Data Vault模型对比雪花模型有什么区别
仓库建模为什么要采用维度建模而不是其他模型,各模型有什么优缺点
12.shuffer过程,hbase架构与数据检索过程