Moderna数据网格:dbt统一数据与人员
关键字: [Amazon Web Services re:Invent 2024, 亚马逊云科技, dbt, Data Transformation Development, Metadata Management, Cross-Platform Data Integration, Data Governance Framework, Scalable Analytics Infrastructure]
导读
参加这场闪电演讲,了解Moderna如何利用dbt Claud3将其多样化的数据系统整合到统一的数据网格架构中。Moderna团队将演示如何使用数据控制平面在Amazon Redshift、Amazon Athena和其他数据平台之间无缝导航,以实现一致的数据体验。本次演讲由亚马逊云科技合作伙伴dbt Labs为您带来。
演讲精华
以下是小编为您整理的本次演讲的精华。
在亚马逊云科技 re:Invent 2024活动上,dbt Labs的联合创始人之一Connor介绍了dbt,这是一种基于软件开发生命周期的数据转换开发工作流。dbt提供了主动的metadata,使用户能够通过dbt构建、部署、编排、观察和编目他们的分析堆栈,从而创建数据控制平面。
Connor强调,许多企业客户在亚马逊云科技上使用多个数据仓库,如EMR、Spark、Redshift、Athena和Glue。虽然这允许用户利用适合他们需求的工具,但可能会导致连接不同系统的挑战。为了解决这个问题,dbt Labs正在开发一种名为“跨平台dbt网格”的解决方案,利用Iceberg在多个数据平台之间连接dbt数据转换管道,创建一个连贯的数据资产,同时保留治理、开发速度和dbt的优势。
接下来,Connor介绍了Moderna的首席云架构师Sri Pramila Camireti,分享了Moderna在使用dbt和跨平台dbt网格方面的经验。
Sri首先概述了Moderna,这是一家成立于2010年的生物技术公司,其使命是提供mRNA药物。Moderna在COVID-19大流行期间发挥了关键作用,通过其疫苗保护了生命。该公司在17个国家拥有超过5,000名员工。
Sri概述了Moderna在数据领域面临的三大关键挑战:
- 数据可访问性和可用性:确保各业务职能部门安全访问内部和外部数据,打破数据孤岛,实现跨数据共享,赋能跨职能业务分析。
- 数据治理:作为一家生命科学公司,安全管理和保护数据,遵守严格的监管和合规需求。
- 可扩展性:扩展基础设施,以支持各种用例,如通用分析、AI/ML和数据科学。
为了应对这些挑战,Moderna在dbt的帮助下采用了数据网格原则。他们从集中式数据团队转向基于领域的数据团队,数据工程师、业务利益相关者和产品负责人专注于为特定业务领域提供解决方案。为每个领域和平台创建了dbt项目,赋予领域工程师管理和创建模型的能力,以支持他们的业务领域和用例。
Moderna从“无数据即产品”的思维转变为为业务分析和数据需求策划特定用途的数据集。利用dbt的数据网格框架,他们结合了来自数据湖和Redshift的数据,使用单个项目并进行跨引用构建了数据产品。dbt的数据网格支持跨平台创建端到端的数据血缘,支持多种技术和项目,同时保持共同基础。
构建数据产品推动了自助式数据平台和业务数据分析,使业务能够引入自己的工具并使用其数据平台执行分析。dbt的框架在模型中促进了数据质量检查,并强化了metadata增强,如定义数据域、业务参考和数据分类。这种组合简化了下游数据访问控制,有助于治理。
dbt还帮助Moderna维护管道和数据产品,确保数据生态系统中的端到端数据血缘和数据元素编目,为其数据平台奠定了基础。
Sri分享了一个最近的用例,其中dbt在解决供应链管理的业务问题方面发挥了关键作用。目标是构建关键绩效矩阵和可见性仪表板,以便将Moderna疫苗及时准确地运送到正确的药房,避免过度运输或运输不足。
要解决这个问题,需要结合来自三个不同领域和两个平台(数据湖和Redshift)的数据。如果没有dbt网格,他们将不得不在平台之间复制数据,从而失去数据血缘并增加额外的管道。然而,通过dbt网格,他们通过在dbt中创建项目来简化数据工程工作流程。
他们创建了一个公共项目(可在Moderna的dbt环境中访问),并跨引用了来自Athena(数据湖)项目和Redshift项目的模型。这使他们能够构建将不同领域和平台组合到单个领域的数据产品,而不会破坏跨数据平台的数据血缘。dbt网格减少了工程工作流程,并帮助维护端到端数据血缘,使业务能够了解数据的来源和转换。
Moderna进一步构建了一个数据SDK作为dbt的包装器,在工程师构建模型时强制执行数据质量检查和metadata要求。这确保了数据驱动、领域驱动的工程,同时维护metadata、访问控制并防止数据孤岛。例如,在为数据湖构建数据模型时,他们强制添加Lake Formation标签,包括数据域类型和分类,这有助于下游访问控制。
最后,Sri强调了三个关键点:
- 强大的数据平台是任何组织数据成功的基础。
- 健全的数据治理和安全性对于数据项目和组织至关重要。
- 可扩展的基础设施和成本控制对于数据项目的成功至关重要。
Connor最后邀请与会者前往dbt Labs展位(1795),了解有关dbt、跨平台dbt网格和他们的产品的更多信息。
总之,这次演讲涵盖了dbt在开发数据转换方面的能力、管理多个数据仓库的挑战、引入跨平台dbt网格以连接跨平台数据管道、Moderna采用dbt实现数据网格原则的过程,以及一个真实用例,展示了dbt网格在简化数据工程工作流程和维护端到端数据血缘方面的优势。演讲强调了强大的数据平台、治理、安全性和可扩展性对于成功的数据项目的重要性。
下面是一些演讲现场的精彩瞬间:
演讲者解释了dbt,这是一种基于软件开发生命周期开发数据转换的工具,它可以生成有关数据仓库和转换过程状态的活动元数据。
dbt支持数据控制平面,可以简化分析管道的开发、部署和治理,从而实现快速数据转换,提高信心并改善治理。
亚马逊云科技提供了全面的数据处理服务套件,如EMR、Spark、Redshift、Athena和Glue,允许客户根据需求选择合适的工具,同时实现整个数据管道的无缝集成和治理。
演讲者强调,dbt的框架使其能够实施数据质量检查、强制执行元数据增强以及简化数据访问控制,从而改善治理。
演讲者强调,dbt帮助构建了一个性能仪表板,用于优化供应链并及时向药房交付Moderna疫苗。
Moderna展示了如何将来自Athena和Redshift等不同来源的数据合并为单一数据产品,同时保留跨平台的数据系统。
演讲者优雅地结束了演讲,并将话筒交给了Connor。
总结
在不断演进的数据分析领域中,Moderna这家开拓性的生物技术公司已经采用了dbt(数据构建工具)的强大功能,彻底革新了其数据管理和治理实践。本文将探讨Moderna的转型之旅,讲述该公司如何通过无缝集成dbt的跨平台网状架构,克服了关键挑战,并释放出前所未有的洞见力。
Moderna的数据生态系统面临三大关键挑战:确保整个业务职能部门的数据可访问性和可用性;实施健全的数据治理,以保护隐私并遵守严格的法规;扩展基础设施,以支持分析、AI/ML和数据科学等多种用例。通过采用数据网状原则并利用dbt的功能,Moderna成功应对了这些挑战。
从集中式数据团队向基于领域的数据团队的转变,使数据工程师和业务利益相关者能够无缝协作,培养了数据所有权文化和专门构建的数据产品。利用dbt的数据网状框架,Moderna将来自数据湖和Redshift等不同来源的数据整合到统一的数据资产中,保留了跨平台的端到端数据线索和治理。
此外,dbt强大的数据质量检查和元数据增强功能使Moderna能够简化合规和治理流程,确保数据完整性并遵守监管要求。dbt促进的自助式数据平台让业务用户能够利用现成的数据产品,并使用他们喜欢的工具进行分析。
最近的一个供应链管理项目展示了dbt网状架构的变革力量。通过无缝整合来自三个领域和两个平台的数据,Moderna能够提供关键的绩效矩阵和可视化仪表板,确保疫苗及时分发,而不会影响数据线索或重复工程工作。
随着Moderna不断推进创新的步伐,该公司对数据卓越、治理和可扩展性的坚定承诺仍然至关重要。以dbt为基础支柱,Moderna有望释放前所未有的洞见力,推动数据驱动的决策,并最终实现通过开创性mRNA药物改善生命的使命。
亚马逊云科技(Amazon Web Services)是全球云计算的开创者和引领者。提供200多类广泛而深入的云服务,服务全球245个国家和地区的数百万客户。做为全球生成式AI前行者,亚马逊云科技正在携手广泛的客户和合作伙伴,缔造可见的商业价值 – 汇集全球40余款大模型,亚马逊云科技为10万家全球企业提供AI及机器学习服务,守护3/4中国企业出海。