大数据复习，面试

最新推荐文章于 2024-10-01 18:52:18 发布

不是比较可爱的人

最新推荐文章于 2024-10-01 18:52:18 发布

阅读量85

点赞数

分类专栏： hadoop 文章标签： big data spark kafka

原文链接：https://zhuanlan.zhihu.com/p/147286690

版权

hadoop 专栏收录该内容

4 篇文章 0 订阅

订阅专栏

四、大数据复习，面试，需要准备什么技能

1）hadoop生态圈：

shuffle流程，文件上传下载流程，异常读写，yarn提交job流程，yarn的队列？？，白名单黑名单？？，机器怎么退役？？，namenode的ha？？，各个节点的责任，

flume的架构，flume的事务，flume会不会丢数据，会不会重复数据，拦截器链，channel选择器，sink处理器有多少种，flume怎么实现高可用（loadbalance sink processor）美团日志收集架构（agent层，collector层，store层），

flume有什么样的channel，kafka的架构，kafka会不会丢数据，重复数据，kafka的分区，kafka的幂等性，kafka对接spark，kafka的生产者消费者zk等

hive的优化，hbase的读写，hbase什么时候会将数据落地到hdfs，hbase什么时候会删除数据，hbase的架构，hbase怎么解决数据倾斜，hbase怎么进行优化，

2）Spark生态圈：

scala，spark-core，spark-sql，spark-streaming

3）Flink：

4）数仓项目：

1.数据采集业务，数据怎么来的，最后去到哪里？

2.数仓的分层，为什么这么做的？

3.数仓的建模，你建的嘛？你有没有参与，你考虑了什么而这样子建模的？

4.数仓你有没有做过什么优化？

5）实时项目：

1.数据还是一样从哪里来的？

2.有没有用过es，redis

3.怎么进行优化

不是比较可爱的人

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。