大数据面试题分享

最新推荐文章于 2023-03-10 12:00:00 发布

zhouyanjun_

最新推荐文章于 2023-03-10 12:00:00 发布

阅读量237

点赞数

分类专栏： 14_flink

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_39437513/article/details/117044258

版权

14_flink 专栏收录该内容

7 篇文章 1 订阅

订阅专栏

“ 最近公司来了几个新同事，好奇问了下面试问题，记录下。”

01

1）技术部分

（1）Kafka原理，数据怎么平分到消费者

（2）FlumeHDFS Sink小文件处理

（3）Flink与SparkStreaming的差异，具体效果

（4）Spark背压机制具体原理实现

（5）Spark执行内存如何分配，执行任务时给多大内存

（6）SparkSQL做了哪些功能

（7）讲一下Flink

（8）状态编程有哪些应用

（9）端到端exactly-once如何保证

（10）Flinkcheckpoint机制

（11）Yarn调度策略

2）项目部分

（1）离线指标、数据量、用户量

（2）介绍一下实时项目，哪些指标，怎么算的

（3）SparkStreaming遇到什么问题，如何解决

（4）SparkStreaming实现什么指标，怎么算的

（5）实时当天日活怎么累加

（6）集群规模

（7）一天的指标会用SparkSQL吗

（8）Spark手动设置偏移量，如果数据处理完后，offset提交失败，造成重复计算怎么办

（9）项目中ES做了哪些工作、ES实现原理、ES倒排索引怎么生成

（10）任务调度

（11）讲一下HBase、项目中哪些地方用了HBase、HBase写入流程、不同列族之间文件怎么划分

（12）Kerberos安全认证过程

02

（1）数仓建模有没有详细的文档说明？

（2）还有HBase的rowkey在生产环境下怎么设计？HBase三个原则：唯一性、长度原则、散列原则

（3）HBase表做预分区，评估半年到一年的数据量

（4）一年之内不能自动切分（10g数据）

（5）求出分区数量

（6）最后再设计自己的分区键值 01| 02| 03|

（7）rowkey前缀（分区号）01_ 02_ 03_

（8）后面拼接常用字段或者时间戳

（9）在一个分区内先查询什么字段，就要把那个字段拼接到前面分区号_要查询的字段_时间戳（保证唯一性）

03

（1）SparkStreaming消费方式及区别，Spark读取HDFS的数据流程

（2）Kafka高性能

（3）Hive调优，数据倾斜

（4）Zookeeper怎么避免脑裂，什么是脑裂。

（5）Redis的基本类型，并介绍一下应用场景

（6）最后会问一些Linux常用命令，比如怎么查进程，查IO运行内存等

希望大家可以关注下公众号，会定期分享自己从业经历、技术积累及踩坑经验，支持一下，鞠躬感谢~

关注公众号回复：“资料全集”

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。