re:Invent 2023 | 快速分析Amazon Aurora PostgreSQL数据,无需ETL

关键字: [Amazon Web Services re:Invent 2023, Amazon Redshift, Aurora Postgresql, Redshift, Near Real Time, Zero Etl, Data Pipelines]

本文字数: 1800, 阅读完需: 9 分钟

视频

如视频不能正常播放,请前往bilibili观看本视频。>> https://www.bilibili.com/video/BV1Mj411L7jW

导读

亚马逊云科技 正在投资零ETL的未来,以便组织可以快速轻松地连接并利用其所有服务中的数据。亚马逊云科技 刚刚宣布了一个新的零 ETL 集成,它可以帮助您解锁 Amazon Aurora PostgreSQL 兼容版数据库中的数据,并在数据更新写入后的几秒钟内,将其在 Amazon Redshift 数据仓库中可用。在本次会议中,了解 Aurora PostgreSQL 与 Amazon Redshift 的零 ETL 集成的功能。完成本次会议后,您将对这一零 ETL 集成的功能有着实际的理解。

演讲精华

以下是小编为您整理的本次演讲的精华,共1500字,阅读时间大约是8分钟。如果您想进一步了解演讲内容或者观看演讲全文,请观看演讲完整视频或者下面的演讲原文。

尼拉杰·林塔拉,作为亚马逊Redshift的首席产品经理,在超过100人的观众面前热情洋溢地欢迎他们参加在活动期间推出的Aurora PostgreSQL和Redshift之间的全新零ETL集成的re:Invent环节。他的共同演讲者是亚当·莱文,担任亚马逊Aurora的首席产品经理,他将随后详细介绍相关内容。

林塔拉简要介绍了他们的议程,包括:

  • 简要讨论运营分析的使用案例
  • 亚马逊云科技如何支持运营分析,包括面临的挑战
  • 亚马逊云科技最近的零ETL发展
  • 由莱文详细介绍Aurora PostgreSQL零ETL功能的深入了解,包括其工作原理及演示

运营分析是指企业通过收集、处理和分析大量数据,以便更好地理解客户需求、市场趋势和业务状况的过程。随着客户越来越依赖数据并进行战略性使用,林塔拉表示,他们比以往任何时候都更需要访问近实时的分析结果。这有助于他们积极主动地了解核心业务驱动因素,优化运营,例如提高销售额、降低成本和改进业务绩效。

林塔拉强调了运营分析的一些实际应用案例,如:

  • 个性化,即根据用户的个人偏好数据提供定制化的体验
  • 适用于各行业的欺诈检测
  • 防止客户流失,这是许多公司的首要任务
  • 产品洞察,如实时分析功能的使用情况
  • 行业特定的解决方案,如游戏排行榜或物联网(IoT)分析

实现这些使用案例的关键是快速获取数据,快速分析以获得见解,并采取行动——这就是为什么亚马逊云科技正在努力实现零ETL的未来。

亚马逊云科技如何支持运营分析?

林塔拉详细介绍了亚马逊云科技如何通过用于交易的目的定制数据库(亚马逊Aurora)和用于分析的目的(亚马逊Redshift)来支持运营分析。

亚马逊Aurora结合了高端商业数据库的速度和可用性与开源数据库的简单性和成本效益,其成本仅为商业替代品的四分之一。Aurora与MySQL和PostgreSQL完全兼容,允许轻松迁移现有应用程序。它还提供了构建应用程序的工具,如无服务器和AI/ML应用程序。

作为一项全面管理的服务,Aurora负责供应、设置、补丁、备份、安全性、可用性和可靠性。Aurora已经看到了巨大的采用,成为亚马逊云科技增长最快的服务之一,超过950家排名前1000的亚马逊云科技客户在使用它。

亚马逊Redshift作为首个完全托管的云计算数据仓库,自2013年推出以来,便使用熟悉的基于SQL的工具为用户提供轻松的大规模数据分析体验。与传统的企业内部数据仓库相比,Redshift具有更高的弹性、更低的成本以及更好的调整性和可操作性。在过去的十年里,Redshift不断增添各种创新功能,例如:"

"- 利用列式存储、并行处理、结果缓存和物化视图等技术,实现大规模的高性能分析"

"- 根据实际需求进行扩展,以支持更多的用户和更大的数据量"

"- 能够集成和分析流数据、数据湖以及其他运营数据库"

"- 通过SQL语言创建、训练和调用机器学习模型,实现每天超过1000亿的推断能力"

"- 数据共享功能,在账户、区域和组织之间安全地实时共享交易一致的数据"

"- 相较于替代品,其价格性能比最高可提高6倍"

"Redshift已被广泛应用于医疗保健、金融服务和电信等行业。每天处理数百EB的数据,每周执行数十亿次查询,展现了其在大数据处理方面的强大实力。

亚马逊云科技现已全面推出其Aurora MySQL零ETL服务,该服务已在1个扩展至4个区域,并增加了管理访问的API。此外,还改进了快速入门体验,以实现更快速的上船。现在,该服务还支持存储和复制JSON格式的数据。一些客户,如Money Forward和Woolworths,已经看到了通过零ETL管道管理来加速分析的好处。这种零ETL方法现已扩展到Aurora PostgreSQL,并在2022年re:Invent上进行了预览发布。MySQL和PostgreSQL之间的用户体验是一致的,只需创建一个指定源集群、目标集群和配置的集成规格。简化操作、近实时数据分析以及利用Redshift的分析功能等好处都适用。PostgreSQL集成还支持插入、更新和删除等DML操作以及添加/删除表和列等元数据操作。数据类型在PostgreSQL和Redshift之间自动映射。需要PostgreSQL 15.4集群,目前在美国东部2号区域可用。客户如CMS正在寻求从夜间批量ETL转向近实时数据同步。

在概述了这些情况后,Rintala将发言权交给了Adam Levin,以便更深入地了解Aurora PostgreSQL零ETL集成。

幕后处理过程"

Levin详细介绍了创建零ETL集成时的幕后工作:

  • Aurora PostgreSQL采用了增强的逻辑复制技术,将处理任务从计算负载转移到存储负载。

  • 首先,将所有源数据库表和数据导出,然后加载到目标Redshift数据库中。

  • 持续的变更数据捕获日志直接从Aurora存储中使用完全管理的、自定义的数据流计算群集进行流式传输。

  • 针对逻辑复制可能出现的问题(如不支持的DDL)进行监控检查,并触发智能重新种子化来解决这些问题。

  • 通过Aurora读取副本、存储冗余、Redshift冗余以及数据流计算群集冗余实现弹性。

这种自动化的复制和数据移动管理是零ETL集成的主要优势。

实时数据复制

Levin通过展示示例插入、更新和DDL更改(如在源Aurora数据库中添加表)来展示实时复制的特性,这些更改在几秒钟内复制到目标Redshift集群。他强调了基于交易类型的延迟时间差异,从低单位数秒到双位数秒不等。关键是对操作数据进行近实时的分析。

解锁Redshift分析能力

最后,展示了将操作数据持续可用放在Redshift中解锁的分析功能的一些例子。这包括在售票数据上创建一个物化视图,用于喂养基于ML的预测模型,以便预测售票情况并不断用实时数据进行更新以提高准确性。

Levin总结说,零ETL加速了对交易性数据执行分析的能力,而无需复杂的ETL管道。这使得团队可以专注于提取价值而非数据整理。

他们的愿景是将零ETL扩展到更多的源和目标,但Aurora PostgreSQL集成提供了简单性、自动化、弹性、实时数据移动以及充分利用了Aurora和Redshift这两个专为目的构建的数据库的优势。

他鼓励用户尝试公共预览版, 提供反馈, 并在团队走向一般可用性时分享如何将其应用于他们的操作分析使用案例的例子。

Levin和Rintala在超过100名与会者的参与下结束了演讲,并开放了提问环节。

下面是一些演讲现场的精彩瞬间:

近日,Aurora PostgreSQL与Redshift之间实现了一种新的零ETL集成,使得数据共享变得更加无缝。

这种零ETL集成为不同数据源(如Aurora MySQL、Aurora PostgreSQL和Redshift)提供了统一且简化的一致体验。

通过Azure集成管理数据库,如权限和数据传输等复杂组件可以在数分钟内轻松快速设置。

此外,亚马逊云科技支持在跨账户的Redshift和RDS之间实现零尾集成,并提供细粒度的访问控制。

亚马逊云科技还对PostgreSQL的逻辑复制进行了改进,实现了高效的变更数据捕获功能。

领导者们强调,Amazon Redshift通过将计算密集型工作负载卸载到存储中,从而优化了性能并增强了逻辑复制能力。

总结

本次演讲主要探讨了Aurora PostgreSQL与Redshift之间的零ETL集成,这一集成使得实时分析运营数据成为了可能。Aurora PostgreSQL是一款专为OLTP工作负载设计的关系型数据库,而Redshift则是一个适用于大规模分析的数据仓库。通常情况下,从Aurora到Redshift构建数据传输管道需要投入时间和资源。通过零ETL集成,实现了从Aurora PostgreSQL到Redshift的持续复制,从而消除了这种复杂性。在创建集成之后,现有数据将被导入至Redshift。利用存储级复制技术,正在进行的更改可在数秒内传输至Redshift。这使得实时仪表板、欺诈检测及其他应用变得可能。Redshift可将复制数据与其他来源(如S3)的数据相结合,并通过数据共享在整个组织中共享。该集成可处理DDL更改,监控错误,并具备内置的弹性。演讲展示了如何通过控制台设置集成,以及如何将示例表和数据更改从Aurora快速复制到Redshift。强调了中国如何利用复制数据进行分析,包括物化视图和基于机器学习预测的能力。总之,零ETL集成简化并加速了对交易数据的运营分析过程。

演讲原文

https://blog.csdn.net/just2gooo/article/details/134837737

想了解更多精彩完整内容吗?立即访问re:Invent 官网中文网站!

2023亚马逊云科技re:Invent全球大会 - 官方网站

点击此处,一键获取亚马逊云科技全球最新产品/服务资讯!

点击此处,一键获取亚马逊云科技中国区最新产品/服务资讯!

即刻注册亚马逊云科技账户,开启云端之旅!

【免费】亚马逊云科技“100 余种核心云服务产品免费试用”

【免费】亚马逊云科技中国区“40 余种核心云服务产品免费试用”

亚马逊云科技是谁?

亚马逊云科技(Amazon Web Services)是全球云计算的开创者和引领者,自 2006 年以来一直以不断创新、技术领先、服务丰富、应用广泛而享誉业界。亚马逊云科技可以支持几乎云上任意工作负载。亚马逊云科技目前提供超过 200 项全功能的服务,涵盖计算、存储、网络、数据库、数据分析、机器人、机器学习与人工智能、物联网、移动、安全、混合云、虚拟现实与增强现实、媒体,以及应用开发、部署与管理等方面;基础设施遍及 31 个地理区域的 99 个可用区,并计划新建 4 个区域和 12 个可用区。全球数百万客户,从初创公司、中小企业,到大型企业和政府机构都信赖亚马逊云科技,通过亚马逊云科技的服务强化其基础设施,提高敏捷性,降低成本,加快创新,提升竞争力,实现业务成长和成功。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

李白的朋友高适

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值