如何选择合适的一个,为什么您可能需要多个
经常会问数据架构师和企业架构师哪种类型的数据存储最适合企业。
Kimball将数据交付给消费者(其他系统,分析,BI,DW)的集成方法称为"数据仓库总线体系结构"。 这些数据存储的组合有时对于创建此体系结构是必需的。
让我们看一下可用的选项,以及增强型仓库方法如何演变。
每种数据存储和整合模式的简介数据湖
· 数据经过最小的转换就被吸收到存储层中,并保留了输入格式,结构和粒度。 包含结构化和非结构化数据。
· 捕获并托管多种数据源-批量,外部,供应商提供,变更数据捕获,运营。
· 业务用例驱动的采用,从一开始就为用户提供价值。
· 控制摄取的数据,并强调记录数据的结构。
· 通常对分析报告和数据科学有用; 对管理报告的用处较小。
· Data Lake是一种数据存储模式,在整个组织,部门和数据用户中,优先于其他所有资源。 最容易安装新数据源。
数据中心
· 将数据提取到存储层,并进行一些转换/协调。 输入格式和结构已更改,但保持了源粒度。 包含结构化和非结构化数据。
· 托管了多种数据源,包括操作,变更数据和决策服务。
· 轮毂和辐条模型
· 与Data Lake相比,具有更多的控制,格式化和关门功能
· 像Data Lake一样,也可以有效地用于数据科学
· 现在,许多顾问都在倡导数据中心,而不是集成弱且受治理程度不强的数据湖(请参阅埃克森集团Dave Wells参考文献中的文章链接)
数据虚拟化/数据联合
· 不会提取数据,而是从其他数据源引用数据。 建立远程连接,并使用诸如缓存和下推查询优化之类的技术的巧妙组合。
· 受源系统的停机时间和源系统的保留策略的影响
· 使用视图和转换期间查询来协调运行时数据
· 这是进行集成计划的理想启动板,但是随着成熟度的提高,组织可以在5年左右的时间内使数据虚拟化增长。
数据仓库
· 在对结构和粒度进行广泛转换之后提取的数据
· 最值得信赖的管理报告来源
· 跟踪随时间变化的参考数据(尺寸变化缓慢)
· 缺乏灵活性,并准备新课程领域的准备时间。 转换逻辑和建模都需要大量的设计,规划和开发。
· 没有必要的数据准备,就无法为与新主题领域相关的查询提供服务。
· 信息生命周期管理(ILM)通常最好在具有明确定义的归档和保留策略的数据仓库中一致地实施。
ODS(运营数据存储)
· 使用多年。 典型的用例是镜像大型机数据库以提供其他系统对数据的访问。
· 源交易系统的镜像副本。 系统已镜像,以将源系统与目标系统使用模式和查询工作负载隔离开并隔离。
比较方式
这是比较表。 每个参数均按期望值进行排名(未评分)(4=高度可取,下降至1=最低值)。
> Capabilities of Data Stores (ranked by desirability)
*治理是默认的治理级别。 诸如Apache Atlas之类的工具可增强对游戏交易平台数据湖和集线器的治理。 虚拟化数据库和ODS的管理权归源系统。
· ILM(信息生命周期管理)排名是默认/常见的ILM级别。 存在增强数据湖,数据中心和数据仓库的可能性。 虚拟化数据库和ODS的ILM控件由源系统设置。
该排名表旨在根据您的要求和您所需要的参数为您提供选择。 可以为每个参数分配一个权重,然后可以选择适合您的正确数据存储模式。
再次,我将重申此工作表中的参数是排名而不是评分。 评分将取决于特定的技术选择和考虑因素,例如用例,适用性等。
选择和组合
数据仓库是一个永久性的固定装置,其他数据仓库则用作源层或扩充层-相关或链接的信息。
可以使用Data Lake,Data Hub或Data Virtualization增强数据仓库。
数据科学团队可以有效地将Data Lakes和Hubs用于AI和ML。 数据工程和ETL团队已经在数据仓库中填充了经过整理和整理的数据。 这些维度上的特征工程可以很容易地执行。 数据科学团队创建的报告提供了上下文和补充管理报告。
数据中心提供了一个分析沙箱,可以提供非常有价值的使用信息。 可以将重复的分析缓慢地内置到数据仓库中,而不必进行即席分析或不经常使用的分析。 ETL /数据工程团队有时会花费太多时间来转换很少使用的报表数据。 可以使用此使用情况数据来评估用法和需求的共性,并在业务流程和主数据域之间推动维度一致性。
如果数据随时可用,那么自助服务BI工具的使用会更快,从而使Data Lake或Data Hub成为重要的齿轮。 没有数据或自助服务工具,业务用户将失去耐心,无法无限期地等待从仓库提供数据。 然后我们以电子表格的形式得到数据水坑:-)
云数据仓库供应商现在已添加了其他功能,以支持Data Lake或Data Hub等存储和处理,并提供了增强的仓库或Warehouse +体系结构。 示例包括SQL Server 2021中的RedShift + Redshift Spectrum,Snowflake,BigQuery + DataProc:Presto或数据仓库和虚拟化。
结论
为了满足业务需求,我们需要正确的数据。 正确的数据应位于正确的可用结构,有效的管理和正确的体系结构组件中。 应该根据数据的业务需求选择提供的产品和功能。 这样的数据分析环境将具有多个数据存储和合并模式。 每个商店都将满足特定的需求和要求。
本文中的讨论和比较对于决定最合适的数据存储和合并模式非常重要。 在执行企业数据架构审查时,它也很有用。
参考文献
Feldman,D.(2021年)。 数据湖与数据中心与联邦:哪个是最佳? MarkLogic。 于2021年3月2日从
marklogic/blog/data-lakes-data-hubs-federation-one-best/检索。
Kimball,R.,Ross,M.,Thornthwaite,W.,Mundy,J.,&Becker,B.(2008年)。 数据仓库生命周期工具包。 约翰·威利父子。
Agrawal,M.,Joshi,S.和Velez,F.(2021年)。 分析项目的数据管理最佳实践。
persistent/whitepaper-data-management-best-practices/
威尔斯(2021年,2月7日)。 数据中心-数据体系结构的下一步是什么? 于2021年3月17日从
eckerson/articles/data-hubs-what-s-next-in-data-architecture检索
(本文翻译自Shirish Joshi的文章《The 5 Data Consolidation Patterns — Data Lakes, Data Hubs, Data Virtualization/Data Federation, Data Warehouse, and Operational Data Stores》