面试官的问题:
问1.oozie/crontab等工作流框架优缺点。
答oozie 配置文件太繁琐了,与hadoop没有太好的兼容性,需要跟hadoop包保持一致[防止包冲突]。
Crontab可用性问题,不易于管理。执行完没有通知与尝试。
问Cdh与hdp有什么区别。
答集群升级(一般来讲不要轻易升级集群):
cloudera不支持滚动升级服务
ambari支持滚动升级服务(这个是ambari的优点,hdfs必须是ha)
二次开发:
cloudera不支持
ambari支持
服务版本:
cloudera较老
ambari较新
服务集成性:
cloudera较弱
ambari较强,支持es、redis、presto、kylin等
体验效果:
cloudera好
ambari相对差
安装过程:
cloudera复杂
ambari简单
邮件报警:
cloudera支持不好
ambari支持很好
总结:
不要轻易升级组件版本
如果对集成性要求高,稳定性相对弱点的,可以选择ambari
如果对稳定性要求高,集成性相对弱点的,可以选择cloudera
问流数据框架[三种]。
答1.Kafkaz自身可以提供流数据处理工具和自行存储(自己存自己)、转化。 本身是数据流。
kafka相当于DATAFIBERS ,用kafka实现。自身流数据处理工具kstream 与ksql。
2.通过Spark写入到kafka;
3.通过Flink写入到kafka。
问Flink、sparkstreaming区别。
答Spark streaming 类似批处理的方式处理流 处理速度稍微慢 弱于kafka先做批处理在流处理;
1.收集到数据直接streaming ,streaming时同时存储;
2.把批处理当成特殊流处理,通过高的吞吐率。流处理主批处理辅;
特点,迅速搜集展现出来。