大数据专业:
面试:
linux:
tail -f F 区别
hadoop:
读写流程、yarn、mapreduce【不会问的、shuffle】
hdfs:
小文件如何解决
nn ha
yarn ha
hive:
1.sql
2.调优:
1.数据倾斜=》
join
group by
2.使用过哪些参数
flume:tail -f F 区别
1.架构设计
2.业务场景 -
架构设计
source:
taildir
sink:
failover 、loadbanlance
3.如何解决 flume 延迟数据:
4.监控flume
ganglia =》 java web接口
kafka:
1.架构设计
2. 数据查找 log文件 、index
isr、
3.给几个分区:
1. 1
2. broker台数 个数
spark:
1.sparksql 理解
2.spark on yarn :
提交参数 mem core
3.spark 内存结构
4.spark任务提交流程
5.spark如何处理小文件:
1.api
2.sql
6.算子:
distinct =》 底层实现
join 是宽还是窄的
wordcount vs scala wc
7.数仓:
理解=》 业务场景:
维度 和指标 、数仓分层、数据可视化
三范式
星星模型
8.实时:
offset
双流join
9.任务监控
flink:
水印
双流join :
api 不用
sql :
状态编程
checkpoint
hbase:
1.架构设计
2.读写流程
3.调优
cdh:
业务:
离线数仓:
指标: 用户留存、报表有哪些 这么做的、 平台架构说出来
实时数仓:
业务周期性、双流join sql 、 窗口 、 水印 eventime如何使用
checkpoint :
flink :
详细回答
spark :
生产不用 ,为什么
java :
io
jvm
多线程不问
数据结构【跑不了】
手写代码:
sql
排序:
快排、冒泡、归并
重要:
面试 =》 直接说
平台架构=》 引出 :
1.擅长用的框架 hive spark flink hbase
2.业务 报表 、拿出手的东西