大数据面试题

Linux部分

①列举你使用的常用指令?
②怎么查看服务是否开启?后面的参数都是什么意思?
③怎么查看服务器内存使用情况?
④日志查看指令?
⑤跨机房怎么传输文件?

Hadoop部分

①怎么搭建一个Hadoop集群?
②Hadoop的Shuffer机制?
③切片概念?文件256M时,几个切片?
④Mr任务提交到yarn流程?
⑤数据倾斜概念?

Hive部分

①hive本质?
②group by、sort by、oreder by、distribute by、cluster by、partition by区别?
③开窗函数理解?
④UDF实现过程?
⑤有出现过HQL执行出现OOM的现象吗?
⑥hive导入数据和到处数据的方式?

HBase部分

①集群角色以及作用?
②client写过程和读过程?
③布隆过滤器?
④Hbase存储特点、与mysql相比?
⑤rowkey的设计?
⑥cell组成?
⑦compact触发时间?作用?

Kafka部分

①为什么要使用Kafka?好处?
②集群角色?
③kafka中数据写入过程?Follwer与leader如何实现数据同步?
④kafka消费者组概念?

Flume部分

①Flume组件成员以及含义?
②Flume传输数据方式?
③Flume传输数据会丢失吗?怎样避免丢失

Flink部分

①Flink最小计算单元?
②Flink任务提交至yarn流程?
③Flink时间语义几种、含义?
④Flink窗口类型?
⑤Flink状态后端类型?一般使用哪种类型?
⑥watermark水位线机制?如何设置数据延迟?
⑦checkpoint和savepoint区别?有什么好处?
⑧怎么理解Flink是保证数据不丢失的?端到端一致性含义?
⑨Flink提供了几层api?分别都适用哪些场景?

Spark部分

①角色组成与作用?
②spark提交任务至yarn流程?
③RDD含义及其特性?
④宽依赖与窄依赖?

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

孙晨c

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值