亚马逊云分析领域的创新:数据处理

亚马逊云分析领域的创新:数据处理

关键字: [Amazon Web Services re:Invent 2024, 亚马逊云科技, 生成式AI, SageMaker, Data Processing Innovation, Unified Studio, Data Lake, Governance Framework, Generative Ai]

导读

参加本次会议,深入了解亚马逊云科技分析服务优化数据处理的新功能。详细了解如何使用Amazon EMR进行可扩展的大数据处理,Amazon Glue实现无缝数据集成,Amazon Athena进行强大的查询,以及Amazon MWAA支持复杂工作流程。无论您是想提高性能、降低成本,还是简化数据管道,本次会议都将为您提供有关最新功能和工具的宝贵见解,以增强您的数据处理能力。

演讲精华

以下是小编为您整理的本次演讲的精华。

2024年亚马逊云科技 re:Invent大会见证了一项划时代的公告,重新定义了亚马逊云科技生态系统内数据处理和分析的格局。亚马逊云科技资深产品经理William Fabinap登台,揭开了革命性的新SageMaker平台,这是一个统一的解决方案,超越了传统机器学习服务的界限。

在全面的演示中,William阐述了新SageMaker平台的变革性质,它将亚马逊云科技的数据、AI和ML服务无缝集成在一个单一的平台下。这种集成包括EMR、Glue、Athena、Managed Workflows for Apache Airflow (MWA)、Redshift和Bedrock等强大的数据处理引擎,从而将整个数据处理生态系统整合到一个统一的框架中。

新的SageMaker平台建立在三大支柱之上:SageMaker Lakehouse、统一Governance和SageMaker Unified Studio。每个组件都在革新亚马逊云科技生态系统内数据处理、分析和管理的方式中发挥着关键作用。

现已全面推出的SageMaker Lakehouse代表了数据管理的范式转变。它将Redshift的数据仓库功能与Amazon S3上Iceberg的数据湖功能相结合,创建了一个无缝的数据湖仓架构。然而,SageMaker Lakehouse真正的力量在于通过零ETL集成整合外部数据源的能力。这项开创性的功能使得从Salesforce和SAP等SaaS供应商以及BigQuery和Snowflake等联合数据源无缝集成数据成为可能。通过采用开放的Apache Iceberg标准,SageMaker Lakehouse确保与支持流行的Apache Iceberg REST API定义的各种服务和框架互操作。

第二大支柱,统一Governance,体现了亚马逊云科技对数据安全和合规性的承诺。DataZone产品已更名为SageMaker Catalog,并整合到SageMaker平台中,提供了全面的治理功能。这包括业务数据目录、数据质量管理、血统跟踪、数据分类和负责任的AI治理。通过将这些关键的治理职能整合到SageMaker平台中,亚马逊云科技使组织能够在整个数据处理和分析工作流程中保持高水平的数据完整性、透明度和问责制。

新SageMaker平台的第三个也许是最受期待的组件是SageMaker Unified Studio,目前处于公开预览阶段。这种开创性的Web体验是所有数据处理工具的中心枢纽,包括笔记本、查询编辑器、可视化ETL工作流等。SageMaker Unified Studio的真正力量在于能够无缝连接到底层的亚马逊云科技数据服务,如EMR、Glue、Athena和Redshift,同时引入了由Amazon Q支持的自然语言查询等创新功能。

在SageMaker Unified Studio中,用户可以利用支持多种编程语言的统一多语言笔记本,充分发挥亚马逊云科技数据服务的潜力。这个笔记本环境允许执行SQL、Java、Python和Scala单元格,每个单元格都连接到相应的运行时环境。此外,用户可以直接从笔记本创建和编排Apache Airflow DAG,利用MWA的工作流管理功能。

SageMaker Unified Studio的一大亮点是集成了来自Glue的可视化ETL工作流。用户可以通过拖放界面构建数据管道,选择数据源、应用转换并指定目标。或者,他们可以将这些可视化工作流转换为代码表示,为高级用户提供更大的控制和灵活性。

SageMaker Unified Studio还引入了统一的SQL查询编辑器,能够针对Athena和Redshift执行查询。该编辑器提供了高级的可视化功能,让用户可以轻松探索和分析数据。此外,在查询编辑器中集成了Amazon Q,使用户能够利用自然语言处理根据业务需求生成SQL查询,进一步简化了数据分析过程。

也许SageMaker Unified Studio最令人信服的一个方面是与SageMaker Catalog治理功能的无缝集成。用户可以访问业务数据目录、使用业务元数据管理数据、并通过流畅的工作流管理数据订阅和访问控制。这种集成确保了数据治理和合规性深深植根于数据处理和分析生命周期中,培养了负责任的数据管理文化。

虽然SageMaker Unified Studio代表了数据处理和分析领域的重大飞跃,但重要的是要注意到它的力量源自于底层经过战斗考验的亚马逊云科技数据处理服务。正如William Fabinap所强调的,SageMaker Unified Studio的执行建立在EMR、Glue、Athena和Redshift等强大的基础之上,确保了可扩展性、可靠性和安全性。

另一位亚马逊云科技专家Kinshuk深入探讨了底层数据处理引擎的创新,重点关注三个关键领域:性能和成本、运营卓越和安全性以及生成式AI功能。

在性能和成本优化方面,亚马逊云科技取得了重大进展。亚马逊云科技托管的Spark引擎现在比开源对应版本快3.9倍,而Athena Trino引擎的性能比开源Trino提高了2.7倍。此外,引入Graviton3实例带来了20%的性能提升,为客户带来了实实在在的成本节约。

亚马逊云科技还在EMR和MWA中实现了托管自动扩缩容改进,为客户节省了高达60%的成本。此外,在Glue中引入了使用控制配置文件,使管理员能够主动管理计算资源分配,防止过度配置并确保运营的经济高效。

在运营卓越和安全性方面,亚马逊云科技推出了开创性的创新。其中一项创新是在Spark中实现了PB级别的细粒度访问控制。这一功能解决了在Spark中实现细粒度访问控制的固有挑战,因为Spark框架的开发人员友好性允许混合使用命令式和声明式代码,赋予用户对数据操作的广泛控制权。

亚马逊云科技通过将集群划分为用户空间和系统空间来克服这一挑战,使策略执行能够在系统级别发生,同时允许用户在用户空间中定义和执行他们的函数。这种创新方法确保了在海量数据规模下实现细粒度访问控制,而不会牺牲Spark框架的灵活性和强大功能。

另一项值得注意的进步是在Glue和EMR Serverless中引入了并发控制和排队机制。这些功能保护客户免受可能消耗过多计算资源并产生高昂成本的失控作业的影响。通过实施排队解决方案,缺乏足够资源的作业将排队,直到所需的计算和内存资源可用,确保了资源的高效利用和成本控制。

亚马逊云科技还扩展了EMR中灵活的部署选项,满足了不同的数据处理需求。客户现在可以从各种计算选项中选择,包括无服务器EC2、EKS现货实例、Graviton3实例以及针对特定工作负载(如通用、内存密集型或GPU加速型任务)优化的专用实例类型。

除了性能和运营改进外,亚马逊云科技还采用了生成式AI的力量来彻底改革数据处理体验。其中一项创新是引入了自然语言ETL和SQL创作功能。用户现在可以提供自然语言提示,如“创建一个ETL管道,将数据从S3移动到DynamoDB,并应用映射和转换操作”,系统将生成相应的ETL管道或SQL查询,简化了开发过程。

然而,亚马逊云科技将生成式AI功能更进一步,解决了两个关键挑战:Spark作业失败的根本原因分析和自动Spark版本升级。

Spark作业失败的根本原因分析传统上是一个耗时且复杂的过程。Spark编程的分布式特性意味着单行代码错误可能会生成数百页的错误消息,即使对于经验丰富的开发人员来说,也很难找到根本原因。亚马逊云科技利用生成式AI来自动化这一过程,使用户只需单击即可启动根本原因分析。AI驱动的系统分析错误消息,识别根本原因,并提供详细报告,包括行号和错误描述,使用户能够快速解决问题并最小化停机时间。

另一项开创性创新是自动Spark版本升级分析和脚本生成。升级Spark版本通常会引入API、函数调用和数据类型期望的变化,要求开发人员通过一个反复试验的过程手动识别和解决兼容性问题。亚马逊云科技利用生成式AI的力量来简化这一过程。

用户可以发起升级分析,指定所需的目标版本和升级代码的位置。基于人工智能的系统会针对新的Spark版本运行现有代码,识别失败情况,修改代码以解决兼容性问题,并反复迭代直到成功运行。该系统会提供所有失败尝试的详细报告,以及最终升级后的代码和原始版本与升级版本之间的差异比较,从而使开发人员能够以最小的努力无缝过渡到最新的Spark版本。

虽然亚马逊云科技数据处理领域的创新确实令人钦佩,但其真正的现实影响最好通过客户Bridgewater的经历来体现,Bridgewater是一家系统性全球宏观资产管理公司。

Bridgewater的投资策略围绕着构建专家模型来分析和理解全球经济,使他们能够对包括全球货币、股票和债券在内的各种资产做出明智决策。这些模型每年产生3亿个时间序列表和19PB的数据,年增长率高达80%。

Bridgewater的架构师Craig Sciatic分享了他们如何利用亚马逊云科技数据处理技术来应对这种大规模数据涌入带来的挑战。他们解决方案的核心是Trino SQL,这是一款强大的引擎,为他们的数据分析和可视化工具奠定了基础。

Trino的可扩展性,加上与亚马逊云科技服务如EMR的无缝集成,对Bridgewater来说是非常宝贵的。Trino提供的关系代数和SQL接口使他们能够生成复杂的可视化效果,帮助操作员浏览和理解数据中的内在关系。

Trino的一大优势是支持用户定义函数(UDF),这使Bridgewater能够将计算更靠近数据,从而最小化了跨网络移动数据的需求。这与Athena等解决方案形成对比,后者通过Lambda实现UDF,需要通过网络传输大量数据集进行处理。

Trino的可扩展性还得益于其MapReduce范式,使Bridgewater能够针对特定工作负载配置集群。这种灵活性确保了资源利用的最优化和性能,满足了他们投资分析工作流程中各种数据处理任务的需求。

然而,Bridgewater解决方案的真正威力在于其能够预测和预先计算操作员所需的信息。这些操作员是各自领域的专家,需要即时访问数据和可视化效果以做出及时的投资决策。即使有无限的计算资源,某些处理任务也会过于计算密集,无法在期望的时间范围内交付结果。

为了解决这一挑战,Bridgewater利用亚马逊云科技数据处理技术预先计算关键信息,确保操作员能够无缝浏览数据和可视化效果,不会出现任何延迟或卡顿。这种主动方法使Bridgewater能够在快节奏的全球宏观资产管理领域保持竞争优势。

总之,亚马逊云科技 re:Invent 2024活动标志着亚马逊云科技生态系统中数据处理和分析的重大进化。新推出的SageMaker平台及其三大支柱——SageMaker Lakehouse、统一Governance和SageMaker统一工作室,重新定义了组织管理数据、治理和分析的方式。

SageMaker Lakehouse通过统一数据仓库和数据湖的功能,并支持零ETL流程无缝集成外部数据源,彻底革新了数据集成。由SageMaker Catalog驱动的统一Governance框架确保了数据生命周期中的数据完整性、透明度和合规性。

作为新平台的核心,SageMaker统一工作室提供了集中的Web体验,集成了所有数据处理工具,包括统一的多语言笔记本、可视化ETL工作流和统一的SQL查询编辑器。与Amazon Q和SageMaker Catalog治理功能的集成进一步增强了用户体验,支持自然语言查询和流畅的数据治理流程。

支撑这些创新的是底层亚马逊云科技数据处理引擎(如Spark、Trino、EMR和Glue)的进步,包括性能提升、成本优化、运营卓越、安全性和生成式人工智能功能的集成,巩固了亚马逊云科技在数据处理领域的领先地位。

这些创新的现实影响体现在像Bridgewater这样的客户身上,他们利用亚马逊云科技数据处理技术构建了可扩展、高效和主动的数据平台。通过利用Trino SQL、UDF和MapReduce范式,Bridgewater创建了一个解决方案,使操作员能够即时访问关键数据和可视化效果,从而在动态的全球宏观资产管理环境中做出明智的投资决策。

随着数据世界的不断演进,亚马逊云科技 re:Invent 2024活动上公布的创新为数据处理和分析树立了新的标准,为组织释放数据的全部潜力并在各个行业推动创新铺平了道路。

下面是一些演讲现场的精彩瞬间:

Matt Garman在2024年reInvent主题演讲中介绍了新的SageMaker,重点关注其数据处理能力。

307a71d008e783449b0419a2b486903e.png

在Lakehouse之上推出了统一的治理框架,将DataZone与SageMaker整合,实现全面的数据和AI治理。

b9d396bd1aecc08771389bd5d37c3a2b.png

SageMaker Unified Studio:一个用于所有数据相关紧迫活动的环境,统一了多个亚马逊云科技服务,如EMR、Glue、Athena等。

a611ce8bc9e2cae69f3bdb24604e5fcc.png

SageMaker Unified Studio引入了统一的笔记本,允许您使用各种服务和编程语言,通过单一界面实现无缝的数据工程、特征提取、数据科学和工作流程编排。

1260883874311f9feda3ad18b9fd0ffc.png

SageMaker Unified Studio提供了来自Glue的可视化ETL工具,允许拖放式数据转换,并与Amazon Q集成,根据自然语言请求生成可视化工作流。

11b598f43ec0bced5b26730a74075fec.png

讨论了互连模型在做出明智决策、识别异常和在数据不正确或有问题时采取适当行动的重要性。

48cfa1780417ff12277915a022e75b01.png

Trino的UDF功能允许通过将计算更接近数据来实现高效的数据处理,避免了不必要的跨网络数据传输。

c3015e29f538872b7215af2544ef8556.png

总结

在这个演示中, William Fabinap, 亚马逊云科技 数据处理和产品体验产品管理负责人, 介绍了 SageMaker 的新功能, 这是 亚马逊云科技 上用于数据、人工智能和机器学习服务的统一平台。

新的 SageMaker 平台包括三个主要组件: SageMaker Unified Studio, 一个集成所有数据处理、人工智能和机器学习工具的统一界面; SageMaker Lakehouse, 一个统一数据仓库、数据湖和外部数据源的数据湖房; 以及 SageMaker Catalog, 一个统一的数据和人工智能系统治理框架。William 着重介绍了 SageMaker Unified Studio, 它提供了一体化的笔记本体验、SQL 编辑器、可视化 ETL 工作流程和由 Amazon Q 生成式人工智能辅助的数据治理能力。

接下来, Kinshook 介绍了底层数据处理服务的创新, 包括性能和成本优化、运营卓越和安全性, 以及用于代码编写、根本原因分析和版本升级的新生成式人工智能能力。最后, Craig de Bridgewater 解释了他的公司如何利用这些 亚马逊云科技 数据处理服务来分析大量经济模型数据, 并实时做出投资决策。

亚马逊云科技(Amazon Web Services)是全球云计算的开创者和引领者。提供200多类广泛而深入的云服务,服务全球245个国家和地区的数百万客户。做为全球生成式AI前行者,亚马逊云科技正在携手广泛的客户和合作伙伴,缔造可见的商业价值 – 汇集全球40余款大模型,亚马逊云科技为10万家全球企业提供AI及机器学习服务,守护3/4中国企业出海。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值