大数据复习,面试

四、大数据复习,面试,需要准备什么技能

1)hadoop生态圈:

shuffle流程,文件上传下载流程,异常读写,yarn提交job流程,yarn的队列??,白名单黑名单??,机器怎么退役??namenode的ha??,各个节点的责任

flume的架构,flume的事务,flume会不会丢数据,会不会重复数据,拦截器链,channel选择器sink处理器有多少种,flume怎么实现高可用(loadbalance sink processor)美团日志收集架构(agent层,collector层,store层)

flume有什么样的channel,kafka的架构,kafka会不会丢数据,重复数据,kafka的分区,kafka的幂等性,kafka对接spark,kafka的生产者消费者zk等

hive的优化,hbase的读写,hbase什么时候会将数据落地到hdfs,hbase什么时候会删除数据,hbase的架构,hbase怎么解决数据倾斜,hbase怎么进行优化,

2)Spark生态圈:

scala,spark-core,spark-sql,spark-streaming

3)Flink:

4)数仓项目:

1.数据采集业务,数据怎么来的,最后去到哪里?

2.数仓的分层,为什么这么做的?

3.数仓的建模,你建的嘛?你有没有参与,你考虑了什么而这样子建模的?

4.数仓你有没有做过什么优化?

5)实时项目:

1.数据还是一样从哪里来的?

2.有没有用过es,redis

3.怎么进行优化

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值