re:Invent 2023 | 通过业务上下文了解数据

亚马逊云科技的AmazonDataZone是一个全面的数据管理服务,通过集中式数据目录、元数据管理和访问控制,帮助企业构建活跃的元数据层,促进数据理解和使用。演讲介绍了DataZone的核心功能,如数据分类、元数据表单、嵌入式协作和企业级治理,以及实际案例中的效益。
摘要由CSDN通过智能技术生成

关键字: [Amazon Web Services re:Invent 2023, Amazon DataZone, Data Catalog, Business Context, Data Asset, Metadata, Data Governance]

本文字数: 2000, 阅读完需: 10 分钟

视频

如视频不能正常播放,请前往bilibili观看本视频。>> https://www.bilibili.com/video/BV1t94y1E79x

导读

在上下文中理解数据意味着所有用户都能发现并理解数据的意义,从而能够自信地使用数据来推动业务价值。通过集中式数据目录,可以轻松查找数据、请求访问、提供权限并使用数据做出业务决策。在此环节中,您将了解 Amazon DataZone、Amazon Glue Data Catalog 和 Amazon Lake Formation 如何帮助您构建业务目录。

演讲精华

以下是小编为您整理的本次演讲的精华,共1700字,阅读时间大约是8分钟。如果您想进一步了解演讲内容或者观看演讲全文,请观看演讲完整视频或者下面的演讲原文。

在2022年re:Invent上,亚马逊云科技推出了一款名为Amazon DataZone的全新数据管理服务。这项服务的目标是帮助企业建立一个全面且活跃的元数据层,使得整个组织内的所有用户都能轻松地查找、理解并订阅他们需要分析和决策所需的所有数据。

拥有7年亚马逊云科技数据服务经验的高级产品经理Priya Taani在2022年re:Invent上主持了一场关于DataZone功能概述的会议。她表示,DataZone本质上是企业内部创建的一个集中化的“数据市场”,其中的数据生产者如市场营销、销售、财务等领域的专家可以发布各种数据资产,如结构化数据、仪表板、带有复杂连接的SQL查询、机器学习模型等。最了解数据的数据生产者可以使用业务元数据(包括所有权、敏感度级别、使用指南、术语表和其他上下文详细信息)来丰富这些资产,从而向其他用户提供100%的清晰度。公司内的数据消费者(可能不熟悉技术细节)然后可以轻松搜索这个统一的数据目录,了解数据的100%业务意义和来源,并要求访问他们特定用例所需的所有数据资产。

Priya列举了DataZone的核心功能:

  1. 域 - 通过这些域按照所有权、责任和业务线对100%的数据进行组织。因此,市场营销数据资产与销售、财务等领域分开。这为团队拥有、管理和共享不同数据资产提供了结构。

  2. 业务数据目录 - 这允许用户在统一的地点登记他们的所有数据资产,而不仅仅是表格之类的结构化数据。这还包括诸如仪表板、SQL查询、机器学习模型、数据管道等多样化的资产。这样可以确保不会遗漏任何数据。

  3. 元数据表单 - 这些提供用于用有意义的业务元数据描述100%的数据资产的标准化、模板和模式。这些业务元数据从诸如亚马逊云科技的Glue等技术源中获取信息,例如所有权、敏感性级别、使用指南、术语表和其他上下文详细信息,以使业务用户能够理解数据。

嵌入式协作 - DataZone无缝地整合了100%不同的分析工具(例如Amazon Redshift、Amazon QuickSight和Amazon SageMaker)中的数据搜索和访问体验。这使得数据消费者可以在目录中找到他们所需的数据,然后订阅相关资产并立即使用首选工具进行分析,而不会对现有工作流程产生干扰。

治理和访问控制 - 这些企业级功能确保了100%用户的权限管理,确保只有授权的用户才能访问敏感的数据资产。数据生产者可以全面控制数据的访问方式,同时鼓励创新。

API - DataZone提供了全面的API集,实现了与组织内部100%现有数据系统、应用程序和过程的集成和互操作性。这允许将DataZone的功能嵌入到定制的解决方案中。

普里娅进一步研究了DataZone的业务数据目录功能,解释了它如何使组织内部的100%数据资产更容易被发现和理解。她概述了几个有效企业业务数据目录的关键需求:

  1. 包含所有数据类型的目录 - 目录必须涵盖各种资产,如仪表板、查询、机器学习模型、数据管道等 - 而不仅仅是表。

  2. 保持元数据的业务相关性 - 元数据需要不断维护和完善相关信息,如所有权、使用指南、术语表等,以便为商业用户提供全面的背景信息。

  3. 自动创建元数据 - 利用机器学习技术的自动化推荐加速了元数据的创建速度50%,减少了错误75%,但仍需经过人工审查。

  4. 管理和维护可理解的资产 - 元数据表单、术语表和精选功能有助于为100%的资产维护标准和一致性。

  5. 支持嵌入式协作 - 搜索和分析工具之间的顺畅连接使得100%的用户能够轻松发现和数据互动。

普里娅解释了DataZone如何满足这些需求。一些关键功能包括:

  • 利用机器学习技术进行自动分类和命名建议,从而加速元数据的创建速度50%,并为100%的资产提供一致的标准。

编写一份包含超过20个行业特定术语和定义的专业词汇表,旨在帮助本组织内部采用统一用语。此外,创建一个包含四种不同类型字段的元数据表格,其中包括一个基于词汇表的下拉菜单,用于记录业务相关的元数据。最后,将亚马逊云科技(Amazon Web Services)的Glue技术元数据导入到我们的系统中,并通过添加业务元数据来优化和完善这些数据,从而实现对所有列的100%覆盖。

通过DataZone实现自动化推荐,以提高100%资产和列的名称和描述的质量。

  • 为100%的数据元素分配术语表术语,以便更好地链接业务定义。

  • 使用元数据表为100%的资产添加元数据,例如所有权、使用指南和安全分类。

  • 消费者可以轻松地使用描述性元数据搜索和过滤数据资产。

  • 只需点击几次,即可订阅所有相关的数据资产,以便轻松访问。

接下来,基因检测和数据分析提供商Nara的Gwen分享了他们如何将DataZone用作数据网格采用的一部分。Nara在新产品、业务模式、数据类型和数据量方面经历了快速增长,这导致了数据可发现性的挑战和缺乏共享理解。Gwen解释了DataZone如何帮助他们将数据搜索时间减少50%,通过针对100%用户创建术语表来促进对数据的共享理解,实现新资产元数据摄取的可重复性和可扩展性,并为100%的敏感患者数据维护强大的隐私和访问控制。

Gwen详细说明自实施DataZone以来, Nara实现的一些关键好处:

  • 查找所需的数据资产以进行分析和决策的速度大大提高,减少50%。不再需要问“数据在哪里?”

  • 为100%的资产添加有意义的业务背景,如通过术语表和元数据,这为技术和业务用户提供了清晰和共享的理解。

  • 随着业务的快速增长,可以通过可重复的模式接入新的数据资产。这以受控的方式扩展了数据目录。

  • 严格的访问控制,在向100%的授权用户提供数据以进行创新的同时,确保对敏感的患者数据进行保护。

  • 通过集成的工具如Amazon Redshift、Amazon QuickSight和Amazon Athena,业务用户可以自助服务式地访问数据,不需苦于连接数据与工具。

  • 通过协作的数据目录,数据生产者和消费者建立了联系和共享语言。这促进了技术团队和业务团队之间的关系。

Gwen指出,他们才刚刚开始使用DataZone,但对其作为数据网格采用的一部分所具有的变革潜力感到兴奋。她分享了一些他们渴望利用的未来功能:

Snowflake的集成使得能从这个额外的数据源中获取数据,并将其呈现给用户。

  • 简化了数据许可过程,让最终用户更容易访问数据。

  • SageMaker的整合将ML模型应用于所有已编目的数据,从而加速人工智能/机器学习的实施。

总之,Priya强调了DataZone的核心价值。它的目标是通过对良好管理的数据进行发布、搜索、理解和订阅,将数据生产者与消费者连接起来。尽管仅仅依靠技术并不足够,但DataZone提供了关键工具,作为有效数据管理所需人员与流程的补充。借助强大的编目、元数据、自动化、协同工作以及治理功能,DataZone能够帮助企业充分利用他们的数据资产,实现基于数据的决策。

总的来说,亚马逊DataZone是亚马逊云科技的一项新服务,它使得企业内的所有用户都能够便捷地发现和使用数据。凭借其全面的编目、元数据、管理和访问功能,它能够帮助企业建立规范化的数据市场。这样连接了数据生产和消费,使得100%的用户都能轻松地找到、理解并利用所有的数据资产。DataZone成为了一种关键工具,助力企业在数据管理过程中实现最大价值。

下面是一些演讲现场的精彩瞬间:

领导者对听众的出席表示热烈欢迎。

演讲者详细阐述了DataZone如何使客户能够轻松地搜索和理解商业描述、术语表术语以及技术元数据等相关资产。

为了在亚马逊云科技的Lake Formation中创建数据资产,演讲者还添加了一些表单字段,其中包括一个必不可少的名称字符串字段和一个必要的商业名称术语表字段。

领导者向观众展示了通过简单点击确认按钮即可接受所有数据推荐的便捷性。

亚马逊云科技致力于运用诸如基因学和数据等新兴技术进行创新和发展。

领导者强调了数据治理在人类、流程和技术方面的重要性。

总结

演讲内容主要围绕Amazon DataZone这一创新的数据管理服务展开。该服务旨在帮助企业构建一个活跃的元数据层,使得企业内部数据更加易于理解和访问。首先,DataZone能够对各种数据资产(如仪表板、SQL查询和ML模型)进行编目,并通过术语表、所有权元数据以及相关性丰富其业务背景。这些商业元数据有助于数据消费者评估并信任数据来源。其次,DataZone能够自动将来自亚马逊云科技Glue的技术元数据输入到目录中,并自动生成可读的列名,从而减轻数据生产者的人工负担。未来还将推出更多自动化功能,以消除重复性任务。最后,DataZone实现了一个从搜索和发现到分析的无缝工作流程。内置的协作功能允许消费者订阅数据,然后切换到所需的工具,如Redshift、QuickSight和SageMaker。总的来说,DataZone连接了数据生产和消费过程。借助丰富的商业元数据,使其数据更加易于理解和使用。同时,自动化和无缝的工作流程在加速洞察产生的同时,也保持了良好的数据治理。

演讲原文

https://blog.csdn.net/just2gooo/article/details/134791428

想了解更多精彩完整内容吗?立即访问re:Invent 官网中文网站!

2023亚马逊云科技re:Invent全球大会 - 官方网站

点击此处,一键获取亚马逊云科技全球最新产品/服务资讯!

点击此处,一键获取亚马逊云科技中国区最新产品/服务资讯!

即刻注册亚马逊云科技账户,开启云端之旅!

【免费】亚马逊云科技“100 余种核心云服务产品免费试用”

【免费】亚马逊云科技中国区“40 余种核心云服务产品免费试用”

亚马逊云科技是谁?

亚马逊云科技(Amazon Web Services)是全球云计算的开创者和引领者,自 2006 年以来一直以不断创新、技术领先、服务丰富、应用广泛而享誉业界。亚马逊云科技可以支持几乎云上任意工作负载。亚马逊云科技目前提供超过 200 项全功能的服务,涵盖计算、存储、网络、数据库、数据分析、机器人、机器学习与人工智能、物联网、移动、安全、混合云、虚拟现实与增强现实、媒体,以及应用开发、部署与管理等方面;基础设施遍及 31 个地理区域的 99 个可用区,并计划新建 4 个区域和 12 个可用区。全球数百万客户,从初创公司、中小企业,到大型企业和政府机构都信赖亚马逊云科技,通过亚马逊云科技的服务强化其基础设施,提高敏捷性,降低成本,加快创新,提升竞争力,实现业务成长和成功。

  • 26
    点赞
  • 14
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值