大数据面试题分享

 最近公司来了几个新同事,好奇问了下面试问题,记录下。

 

01

 

 1)技术部分

(1)Kafka原理,数据怎么平分到消费者

(2)FlumeHDFS Sink小文件处理

(3)Flink与SparkStreaming的差异,具体效果

(4)Spark背压机制具体原理实现

(5)Spark执行内存如何分配,执行任务时给多大内存

(6)SparkSQL做了哪些功能

(7)讲一下Flink

(8)状态编程有哪些应用

(9)端到端exactly-once如何保证

(10)Flinkcheckpoint机制

(11)Yarn调度策略

2)项目部分

(1)离线指标、数据量、用户量

(2)介绍一下实时项目,哪些指标,怎么算的

(3)SparkStreaming遇到什么问题,如何解决

(4)SparkStreaming实现什么指标,怎么算的

(5)实时当天日活怎么累加

(6)集群规模

(7)一天的指标会用SparkSQL吗

(8)Spark手动设置偏移量,如果数据处理完后,offset提交失败,造成重复计算怎么办

(9)项目中ES做了哪些工作、ES实现原理、ES倒排索引怎么生成

(10)任务调度

(11)讲一下HBase、项目中哪些地方用了HBase、HBase写入流程、不同列族之间文件怎么划分

(12)Kerberos安全认证过程

 

02

 

(1)数仓建模有没有详细的文档说明?

(2)还有HBase的rowkey在生产环境下怎么设计?HBase三个原则:唯一性、长度原则、散列原则

(3)HBase表做预分区,评估半年到一年的数据量

(4)一年之内不能自动切分  (10g数据)

(5)求出分区数量 

(6)最后再设计自己的分区键值  01| 02|  03|

(7)rowkey前缀(分区号)01_  02_ 03_

(8)后面拼接常用字段或者时间戳

(9)在一个分区内先查询什么字段,就要把那个字段拼接到前面  分区号_要查询的字段_时间戳(保证唯一性)

 

03

 

(1)SparkStreaming消费方式及区别,Spark读取HDFS的数据流程

(2)Kafka高性能

(3)Hive调优,数据倾斜

(4)Zookeeper怎么避免脑裂,什么是脑裂。

(5)Redis的基本类型,并介绍一下应用场景

(6)最后会问一些Linux常用命令,比如怎么查进程,查IO运行内存等

 

 

 

希望大家可以关注下公众号,会定期分享自己从业经历、技术积累及踩坑经验,支持一下,鞠躬感谢~

图片

关注公众号回复:“资料全集”

图片

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值