前言
前面和大家分享了,维度建模的理论基础,包括维度表设计的方法论和深入剖析了事实表,今天就理论结合实践,和大家聊聊完整的一个数仓构建的过程!
数据的重要性和战略意义毋庸置疑,目前业界也都在热火朝天地将大数据战略落地和用于实战。
在这个过程中,我们首要的问题就是数据平台的搭建,主要包括物理和逻辑两个方面:
- 物理数据平台的搭建包括 硬件、大数据工具和技术的选型、购买、搭建等;
- 逻辑数据平台的搭建则包含 数据平台架构设计、数据规范制定、数据开发实施和维护等。
物理平台的搭建可以购买成熟的独立商业解决方案,也可以 DIY (自己购买服务器、存储等各种硬件平台、并购买商用数据处理软件和工具或者选用开源的数据处理框架,如 Hadoop、Hive、Kettle 等,自己自由组合搭建数据平台)。
但是数据平台已然成为了一个机构和组织的关键基础设施,已经像“水电煤”一样不可或缺了。
既然是“水电煤”,那么还需要自己“发电”和“供水”吗?为什么要自己搭建物理数据平台并负责维护呢?目前技术的发展实际上也给出了否定的答案,未来的数据和数据平台就如同业务系统一样,都会在云端(可能是公有云,也可能是专有云)。随需随用,所以基于云的数据平台解决方案势必会成为主流。
业务背景
我们就假设某虚拟的、全国连锁的大型零售超市 FutureRetailer 为对象(国外的对标公司为沃尔玛、家乐福、乐购等)&