1、大数据平台前期调研
1.1业务需求调研
从运维角度看,主要调研公司的有哪业务的数据运营需求,是离线计算需求还是实时计算需求。
1)离线计算组件需求:
数据采集组件:FlinkX/DataX
数据存储组件:HDFS
数据加工组件:YARN/Hive/Spark/Flink
数据服务组件:HBase/Elasticsearch/Geomesa(时空数据库)/Kylin(OLAP 引擎)/MPP 数据库(可以用作即席交互查询,如 Greenplum、HAWQ)
2)实时计算组件需求:
数据采集组件:flume/filebeat/Kafka
数据存储组件:Kafka
数据加工组件:Strom/Spark Stream/Flink Stream/Phoenix
数据服务组件:HBase/Elasticsearch/Geomesa(时空数据库)/MPP 数据库(可以用作即席交互查询,如 Greenplum、HAWQ)
1.2、业务数据量需求调研&数据保留周期调研
主要调研各个业务系统的历史数据量、每天的数据增量以及数据保留周期等指标,用来评估大数据平台的存储规划,历史数据量和数据增量需要跟业务方系统的 DBA 沟通,数据保留周期需要跟业务方数据运营人员沟通。
2、集群节点与硬件规划
比如业务系统数据量每天增量 50T,保