部分面试题

1.广播变量和driver 中定义的普通变量的区别
2.数据倾斜 优化的方式,怎样定位问题,有什么样的解决方案,有没有调参的方式能够解决的
3.模型:
 (1)怎样评判汇总层的数据模型的好坏
 (2)怎样应对业务变化
 (3)分层的原则
4.实时流join怎么做的,采用实时流相互等待借助外部缓存join,如果数据本身有重复,会进行多次join怎么解决的,如果数据延迟时间特别长问题怎么解决的
5.spark trasform操作和action操作有什么区别,宽依赖和窄依赖怎么划分的,为什么需要在宽依赖处进行stage划分,为什么需要进行shuffle操作
6.排序算法(快排)
7.mysql事务隔离级别
8.innodb 和 myisam区别
9.job启动慢可能的原因是什么
10.各种数据倾斜,map端倾斜,join倾斜,rduce倾斜 及解决方案(参数角度,和代码角度)
11.仓库建模方法
(1)维度模型(模型设计有什么原则,怎样保证一致性,模型分层原则,主题是怎么划分的,为什么要划分四层有什么好处,什么是星型模型和雪花模型)
(2)ER模型
(3)Anchor模型
(4)Data Vault模型
Anchor模型跟Data Vault模型对比雪花模型有什么区别
仓库建模为什么要采用维度建模而不是其他模型,各模型有什么优缺点
12.shuffer过程,hbase架构与数据检索过程
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值