Databricks Layer

前言

Databricks 中的 Bronze-Silver-Gold 层级是数据湖架构中数据组织和处理的一种方法,它允许数据从原始状态逐步转化为对业务决策有用的形式。这种分层方法有助于数据的可管理性、可扩展性和可维护性,同时也支持数据的快速摄取和灵活的分析需求。Databricks 提供了工具和功能来支持这种分层方法,包括数据管道的构建、数据转换和数据访问等。通过这种方式,组织可以确保数据在整个生命周期中保持高质量和高可用性。

Bronze layer (raw data)

The Bronze layer is where we land all the data from external source systems. The table structures in this layer correspond to the source system table structures "as-is," along with any additional metadata columns that capture the load date/time, process ID, etc. The focus in this layer is quick Change Data Capture and the ability to provide an historical archive of source (cold storage), data lineage, auditability, reprocessing if needed without rereading the data from the source system.

青铜层(原始数据) 青铜层是我们从外部源系统收集所有数据的地方。这一层的表结构与源系统的表结构“原样”相对应,并包含任何额外的元数据列,这些列捕获了加载日期/时间、进程ID等。在这一层的重点是对数据变化的快速捕捉以及提供源(冷存储)数据的历史存档,数据血统,可审计性,必要时重新处理而无需重新从源系统读取数据。

Silver layer (cleansed and conformed data)

In the Silver layer of the lakehouse, the data from the Bronze layer is matched, merged, conformed and cleansed ("just-enough") so that the Silver layer can provide an "Enterprise view" of all its key business entities, concepts and transactions. (e.g. master customers, stores, non-duplicated transactions and cross-reference tables).

白银层(清洗和符合的数据) 在湖仓的白银层中,来自青铜层的数据被匹配、合并、符合和清洗(“足够”),以便白银层能够提供所有关键业务实体、概念和交易的“企业视角”。(例如,主客户、商店、非重复交易和交叉引用表)。

白银层将来自不同来源的数据整合到企业视角中,并支持自助式分析,用于临时报告、高级分析和机器学习。它为部门分析师、数据工程师和数据科学家提供了一个来源,以便他们进一步创建项目和分析,通过企业数据项目和部门数据项目在金层中回答业务问题。

在湖仓数据工程范式中,通常遵循的是ELT方法论,而不是ETL——这意味着在加载白银层时,只应用最小或“足够”的转换和数据清洗规则。优先考虑的是快速敏捷地摄取和交付数据湖中的数据,许多特定于项目的复杂转换和业务规则在从白银层加载到金层的数据时应用。从数据建模的角度来看,白银层拥有更多第三范式的数据模型。在这一层可以使用类似数据仓库的数据模型,具有写入性能。

Gold layer (curated business-level tables)

Data in the Gold layer of the lakehouse is typically organized in consumption-ready "project-specific" databases. The Gold layer is for reporting and uses more de-normalized and read-optimized data models with fewer joins. The final layer of data transformations and data quality rules are applied here. Final presentation layer of projects such as Customer Analytics, Product Quality Analytics, Inventory Analytics, Customer Segmentation, Product Recommendations, Marking/Sales Analytics etc. fit in this layer. We see a lot of Kimball style star schema-based data models or Inmon style Data marts fit in this Gold Layer of the lakehouse. So you can see that the data is curated as it moves through the different layers of a lakehouse. In some cases, we also see that lot of Data Marts and EDWs from the traditional RDBMS technology stack are ingested into the lakehouse, so that for the first time Enterprises can do "pan-EDW" advanced analytics and ML - which was just not possible or too cost prohibitive to do on a traditional stack. (e.g. IoT/Manufacturing data is tied with Sales and Marketing data for defect analysis or health care genomics, EMR/HL7 clinical data markets are tied with financial claims data to create a Healthcare Data Lake for timely and improved patient care analytics.)

黄金层(策划的业务级表) 湖仓中的黄金层数据通常以消费就绪的“特定于项目”的数据库组织。黄金层用于报告,并使用更多非规范化和优化读取的数据模型,减少连接。最终的数据转换和数据质量规则在这里应用。诸如客户分析、产品质量分析、库存分析、客户细分、产品推荐、市场营销/销售分析等项目的最终呈现层就适合在这一层。我们可以看到很多基于Kimball风格的星型模式数据模型或Inmon风格的数据集市适合在这一层的黄金层。

所以你可以看到,数据在通过湖仓的不同层时被策划。在某些情况下,我们还看到许多来自传统关系数据库技术栈的数据集市和EDW被摄取到湖仓中,这样企业就可以首次进行“全EDW”高级分析和机器学习——在传统技术栈上是不可能或成本过高的。(例如,IoT/制造业数据与销售和市场营销数据结合进行缺陷分析,或者医疗基因组学、EMR/HL7临床数据市场与财务索赔数据结合,创建一个医疗数据湖,用于及时和改进的病人护理分析。)

  • 27
    点赞
  • 16
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值