数据仓库 迁移 大数据
对于企业开始大数据之旅而言,将冷的或未使用的数据和ETL工作负载从数据仓库卸载到Hadoop /大数据平台是一个非常普遍的起点。 像Hadoop这样的平台提供了一种经济的方式来存储数据并进行大数据集的批量处理。 因此,成本是此初始用例的主要驱动力就不足为奇了。
这些项目在实际实施时会是什么样? 在本文中,我们将研究需要考虑的不同因素,我们将提供一种实现数据仓库卸载的方法,并演示事物如何在Hadoop /大数据世界中转换。 在传统的数据仓库世界中,人们非常习惯于对任务和工作流程进行排序。 数据必须从源系统中提取,转换,然后加载到目标(即数据仓库)中。
在传统的数据仓库世界中,结构和架构至关重要,这导致了明确定义的转换。 在Hadoop和大数据世界中,无需将数据存储为结构化格式。 新工具可以在没有模式的情况下工作,或者在读取时应用模式,或者针对列,键值对和文档数据库进行优化。 没有真正的提取和加载-都是关于数据到达集群后发生的转换。 从数据仓库卸载时,将同时移动数据和转换。 数据生命周期