Hadoop 数据仓库建设实践(理论结合实践)_hadoop完成数据预处理、建立数据仓库、进行数据分析和数据导出

本文探讨了如何结合理论和实践构建数据仓库,以FutureRetailer的零售业务为例,介绍了物理和逻辑数据平台的搭建,强调了Hadoop在数据仓库中的应用,以及层次化的数据仓库架构设计,包括ODS、DW和应用层,以提高数据质量和维护性。
摘要由CSDN通过智能技术生成

前言

前面和大家分享了,维度建模的理论基础,包括维度表设计的方法论和深入剖析了事实表,今天就理论结合实践,和大家聊聊完整的一个数仓构建的过程!

数据的重要性和战略意义毋庸置疑,目前业界也都在热火朝天地将大数据战略落地和用于实战。

在这个过程中,我们首要的问题就是数据平台的搭建,主要包括物理和逻辑两个方面:

  • 物理数据平台的搭建包括 硬件、大数据工具和技术的选型、购买、搭建等;
  • 逻辑数据平台的搭建则包含 数据平台架构设计、数据规范制定、数据开发实施和维护等。

物理平台的搭建可以购买成熟的独立商业解决方案,也可以 DIY (自己购买服务器、存储等各种硬件平台、并购买商用数据处理软件和工具或者选用开源的数据处理框架,如 Hadoop、Hive、Kettle 等,自己自由组合搭建数据平台)。

但是数据平台已然成为了一个机构和组织的关键基础设施,已经像“水电煤”一样不可或缺了。

既然是“水电煤”,那么还需要自己“发电”和“供水”吗?为什么要自己搭建物理数据平台并负责维护呢?目前技术的发展实际上也给出了否定的答案,未来的数据和数据平台就如同业务系统一样,都会在云端(可能是公有云,也可能是专有云)。随需随用,所以基于云的数据平台解决方案势必会成为主流。

业务背景

我们就假设某虚拟的、全国连锁的大型零售超市 FutureRetailer 为对象(国外的对标公司为沃尔玛、家乐福、乐购等)&

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值