四、大数据复习,面试,需要准备什么技能
1)hadoop生态圈:
shuffle流程,文件上传下载流程,异常读写,yarn提交job流程,yarn的队列??,白名单黑名单??,机器怎么退役??,namenode的ha??,各个节点的责任,
flume的架构,flume的事务,flume会不会丢数据,会不会重复数据,拦截器链,channel选择器,sink处理器有多少种,flume怎么实现高可用(loadbalance sink processor)美团日志收集架构(agent层,collector层,store层),
flume有什么样的channel,kafka的架构,kafka会不会丢数据,重复数据,kafka的分区,kafka的幂等性,kafka对接spark,kafka的生产者消费者zk等
hive的优化,hbase的读写,hbase什么时候会将数据落地到hdfs,hbase什么时候会删除数据,hbase的架构,hbase怎么解决数据倾斜,hbase怎么进行优化,
2)Spark生态圈:
scala,spark-core,spark-sql,spark-streaming
3)Flink:
4)数仓项目:
1.数据采集业务,数据怎么来的,最后去到哪里?
2.数仓的分层,为什么这么做的?
3.数仓的建模,你建的嘛?你有没有参与,你考虑了什么而这样子建模的?
4.数仓你有没有做过什么优化?
5)实时项目:
1.数据还是一样从哪里来的?
2.有没有用过es,redis
3.怎么进行优化