部分面试题

最新推荐文章于 2024-04-20 11:49:24 发布

小朋友,你是否有很多问号?

最新推荐文章于 2024-04-20 11:49:24 发布

阅读量154

点赞数

分类专栏：大数据面试

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/oracle8090/article/details/80882487

版权

大数据面试专栏收录该内容

5 篇文章 0 订阅

订阅专栏

1.广播变量和driver 中定义的普通变量的区别
2.数据倾斜优化的方式，怎样定位问题，有什么样的解决方案，有没有调参的方式能够解决的
3.模型：
(1)怎样评判汇总层的数据模型的好坏
(2)怎样应对业务变化
(3)分层的原则
4.实时流join怎么做的，采用实时流相互等待借助外部缓存join，如果数据本身有重复，会进行多次join怎么解决的，如果数据延迟时间特别长问题怎么解决的
5.spark trasform操作和action操作有什么区别，宽依赖和窄依赖怎么划分的，为什么需要在宽依赖处进行stage划分，为什么需要进行shuffle操作
6.排序算法（快排）
7.mysql事务隔离级别
8.innodb 和 myisam区别
9.job启动慢可能的原因是什么
10.各种数据倾斜，map端倾斜，join倾斜，rduce倾斜及解决方案（参数角度，和代码角度）
11.仓库建模方法
(1)维度模型（模型设计有什么原则，怎样保证一致性，模型分层原则，主题是怎么划分的，为什么要划分四层有什么好处,什么是星型模型和雪花模型）
(2)ER模型
(3)Anchor模型
(4)Data Vault模型
Anchor模型跟Data Vault模型对比雪花模型有什么区别
仓库建模为什么要采用维度建模而不是其他模型，各模型有什么优缺点
12.shuffer过程，hbase架构与数据检索过程

小朋友,你是否有很多问号?

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
部分面试题

1.广播变量和driver 中定义的普通变量的区别2.数据倾斜优化的方式，怎样定位问题，有什么样的解决方案，有没有调参的方式能够解决的3.模型： (1)怎样评判汇总层的数据模型的好坏 (2)怎样应对业务变化 (3)分层的原则4.实时流join怎么做的，采用实时流相互等待借助外部缓存join，如果数据本身有重复，会进行多次join怎么解决的，如果数据延迟时间特别长问题怎么解决的5.spark tr...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。