一.项目需求分析
1.采集平台搭建
(1).用户行为数据采集平台搭建
(2).业务数据采集平台搭建
2.离线数仓需求
(1).电商离线指标需求
从主题-子主题-指标需求
主题:
①.流量主题
②.用户主题
③.商品主题
④.交易主题
⑤.优惠券主题
⑥.活动主题
3.实时数仓需求
同离线
4.项目框架
(1).技术选型
考虑因素:数据量大小,业务需求,行业内经验,技术成熟度,开发维护成本,总成本预算
(2).框架版本如何选型
apach,cdh
(3).服务器使用物理机还是云主机?(云服务选择)
我是阿里云上云搭建
DataWorks:阿里云数据同步工具,类似datax开源。
MaxCompute:阿里云数据存储工具,类似hive。
EMR:阿里云大数据平台,类似cdh。
(4).集群规模(假设每台服务器16T硬盘)
(5).集群资源规划设计
在企业中通常会搭建一套生产集群和一套测试集群。生产集群运行生产任务,测试集群用于上线前代码编写和测试。