如何选择技术栈
Apache:运维麻烦,组件间兼容性需要自己调研。
CDH:国内使用最多的版本,但CM不开源,今年开始要收费。
HDP:开源,可以进行二次开发,但是没有CDH稳定,国内使用较少。
如何选择中间件
数据采集传输:Flume,Kafka,Sqoop ,Logstash,DataX
数据存储:MySql,HDFS,HBase,Redis,MongoDB
数据计算:Hive,Tez, Spark, Flink,Storm
数据可视化:Echarts、Superset、QuickBI、DataV
任务调度:Azkaban、Oozie
集群监控:Zabbix
元数据管理:Atlas