1.平台搭建
1.1.Amabari+HDP
1.2.CM+CDH
2.相关的技术栈
- 数据存储:HDFS,HBase,Kudu等
- 数据计算:MapReduce,Spark,Flink
- 交互式查询:Impala,Presto
- 在线实时分析:ClickHouse,Kylin,Doris,Druid,Kudu等
- 资源调度:YARN,Mesos,Kubernetes
- 任务调度:Oozie,Azakaban,AirFlow,DolphinScheduler等
- 元数据管理:开源的有 Netflix的Metacat、Apache的Atlas,商业化的产品有Cloudera Navigator。
- 数据安全管理:Ranger
- 数据自助可视化:Davinci