ANT317 | 使用 Amazon Redshift Serverless 进行自助式分析

ANT317 | 使用 Amazon Redshift Serverless 进行自助式分析

关键字: [Amazon Web Services re:Invent 2023, Amazon Redshift, Self Service Analytics, Redshift Serverless, Query Performance, Data Ingestion, Streaming Data]

本文字数: 2300, 阅读完需: 12 分钟

视频

导读

借助 Amazon Redshift Serverless,您可在数秒钟内上手并大规模运行数据仓库和分析工作负载,且无需顾虑数据仓库管理。在本次分享中,了解 Amazon Redshift 如何自动预置数据仓库容量并智能扩展底层资源,从而提供始终如一的高性能和简化操作,即使是要求最苛刻和最不稳定的工作负载。

演讲精华

以下是小编为您整理的本次演讲的精华,共2000字,阅读时间大约是10分钟。如果您想进一步了解演讲内容或者观看演讲全文,请观看演讲完整视频或者下面的演讲原文。

纳雷什·钱纳尼,这位在亚马逊工作了六年的资深工程总监,拥有二十年的数据库经验,欢迎各位观众参加一个关于Amazon Redshift无服务器支持的自助服务分析的研讨会。纳雷什向观众们介绍了一位共同演讲者,拉杰·帕伊萨,他是Broadridge Financial Solutions公司的高级解决方案架构师,他将稍后在会议上分享关于Broadridge将分析工作负载迁移到Redshift无服务器并实现性能提升的具体细节。

在会议开始时,纳雷什首先对背景进行了设定,解释了什么是自助服务分析。他指出,自助服务分析的目标是让数以万计的商业分析师和业务线用户在无需IT进行基础设施决策的情况下,能在几秒钟或几分钟内开始查询和分析数据,避免因数小时、数天或数周的延迟而影响用户体验。让用户能够快速开始探索数据并提出问题是至关重要的,因为最初的提问通常会随着见解的获得而产生更深入的后续问题。

纳雷什简要概述了数据分析平台要实现真正的自助服务功能所需的一些关键技术需求。首先,用户需要能够迅速开始查询,系统应快速按需调配资源,以便用户可以专注于数据而非基础设施。其次,为了及时获取完整见解,用户需要能够跨所有相关数据源进行查询,包括原始数据湖、交易系统和流数据。孤岛式数据只会导致局部见解。第三,该平台必须提供优秀的性价比,避免高昂的成本限制使用或低劣的性能挫败用户。最后,强大的安全性功能,如加密、访问控制和数据掩码,对于简化法规遵从性和防止数据泄露至关重要。

纳雷什解释说,亚马逊Redshift通过各种方式满足了这些自助服务需求。自2022年7月推出的Redshift无服务器功能,使得用户能够立即开始查询,而无需管理基础设施。智能计算管理层根据实时工作负载需求自动上下调整查询处理能力,使用户免于对配置做出决策。工作负载可以从零扩展到数千个并发用户,而性能不会下降。Redshift无服务器在需要时无缝地增加额外资源,以充分利用分配的计算资源。工作负载管理器监控查询模式并自动持续调整系统。无服务器提供内置的高可用性、自动每小时备份以及大规模的安全保障。用户只需为他们实际运行的查询付费,从而提高成本效益。

自5个月前推出以来,Redshift无服务器已经取得了巨大的增长,每天都有数千名客户采用它。纳雷什解释说,无需任何基础设施设置或管理就能立即开始查询的能力,对于希望关注数据而非IT运营的业务线用户来说非常有吸引力。他指出,由于提供了相同的JDBC/SQL接口,客户可以轻松地将可变或尖峰工作负载迁移到无服务器,而无需任何代码更改。

以一个客户为例,纳雷什邀请了Broadridge Financial Solutions的Raj Paisa上台讨论他们将分析工作负载迁移到Redshift无服务器的经历。Raj首先介绍了Broadridge的背景,解释说是全球金融科技公司,年度收入超过50亿美元,为每年交易量达9万亿美元的固定收益和股权资产提供关键基础设施。Broadridge还为顶级金融服务公司的数字和印刷渠道每年交付超过70亿客户通信。

雷杰表示,Broadridge公司为全球资本市场、财富管理和资产管理的超过20万名金融专业人士提供数据分析、洞察和建议服务。该公司专注于投资改进、风险减轻和优化运营所需领域,如投资组合表现、风险管理、市场数据和交货周期等方面的数据分析。据他介绍,Broadridge公司采用混合的本地和云架构来提供这些解决方案。

此外,雷杰详细阐述了Broadridge公司内部运营的一种自助服务数据分析应用程序,用于管理客户证券交易的监管数据。该应用程序每日处理高达40TB的交易数据,并为业务用户提供自助报告、仪表板和分析功能。然而,他也指出,他们在本地系统中面临一些关键挑战,严重影响其可用性。首先,查询性能极差,复杂查询需要数小时才能完成,严重影响了分析师的工作效率和界面的响应速度。其次,该系统无法扩展以满足在每月、每季度和每年报告周期高峰期四倍更高的数据量需求,此时数据可能激增至160TB。第三,过时的固定设备硬件维护成本非常高,且无法经济有效地适应数据增长。最后,手动管理、监控、调整、分区和优化本地系统的开销使得他们的数据库管理员不堪重负。

鉴于这些重大挑战,Broadridge寻求一个能够提供显著更快的查询性能以提高用户生产力、无缝地并弹性地扩展以满足大型季节性需求波动、大幅度降低硬件和许可成本以及通过自动调整和管理的操作开销最小化的解决方案。

在经过全面评估多个选项后,Redshift Serverless被选为最佳解决方案,能够满足所有他们的需求。雷杰强调,Redshift Serverless能够在几分钟而非数月内快速供应集群,自动扩展以满足工作负载需求,按使用小时计费的付费模式,以及无需关心的管理。

为了迁移到Redshift无服务器,Raj解释说他们采用了亚马逊云科技的Database Migration Service和Amazon S3,仅用2小时便将40TB的内部数据迁移至Redshift无服务器中。这使得他们能够快速验证规模性能。

在完成迁移后,Broadridge进行了全面的基准测试,模拟了20个并发用户运行的5000个复杂查询,涉及1TB的数据。与内部系统相比,Redshift无服务器的表现有了显著的提升:

  • 总查询执行时间快了81%;
  • 单个查询速度提升了2-75倍;
  • 在相同的时间窗口内可处理的数据量多5倍;
  • 运行5000个查询的总成本仅为32美元。

通过对每小时使用情况进一步推断,Broadridge估计Redshift无服务器可以在维持现有系统年度成本的三分之一的情况下提供相似的性能和并发性。

总的来说,通过迁移到Redshift无服务器,Broadridge能够为分析师提供更快的查询响应时间,轻松应对季节性峰值需求,按需分配容量以降低成本,快速创建开发/测试环境,并最大程度地减少任务关键的监管报告应用程序的操作开销。Raj表示,考虑到这些巨大的优势,Broadridge现在可以更快地添加新的分析应用程序和使用者。他们的下一步是进行更详细的成本比较,并探索多租户功能。

Naresh对Raj分享的这些令人难以置信的结果表示感谢,这些结果清楚地表明,与内部相比,Redshift无服务器上的复杂查询性能提高了81%,成本降低了3倍。这使公司能够在按使用付费的模式下,在扩展用户和数据的同时提供一致的性能。

接着,Naresh深入探讨了如何在不同数据孤岛之间进行集成和查询的常见挑战,这是Raj强调的支持广泛自助服务分析的关键要求之一。他解释道,传统上,公司需要构建和维护从诸如Amazon S3、Kafka和交易数据库等来源提取、转换和加载数据到其数据仓库以供分析的复杂数据管道。但这些管道既繁琐又脆弱,容易出错,延迟高,并在数据完整性、重复和数据复杂性方面引入重大挑战。

红杉引入了两项关键功能,以助力简化和优化这一过程。首先,从亚马逊S3自动摄取能力使得红杉能够在其仓库中自动加载任何新到的数据。这意味着分析师可以在数据抵达S3后立即直接查询最新数据,而非等待ETL流程完成。其次,从亚马逊Kinesis和Kafka的流式摄取能力使得数据能在不到10秒内直接进入红杉,避免了一切中间临时存储。这使得实时运营分析等新兴应用场景得以实现,因为数据可以实时进行分析。

例如,红杉如何简化数据孤岛问题,纳雷什强调了其机器学习功能。该功能允许数据团队直接在红杉中使用亚马逊SageMaker构建机器学习模型,并将推断计算推送至红杉内部运行。这为利用红杉的MPP架构大规模提供高性能的ML预测提供了可能性。使数据易于进行机器学习的做法已帮助像JobCase这样的客户发现了更深入的了解并启用了新的应用场景。

纳雷什随后转向探讨红杉持续提供的自主性能优化,以实现自动化的高性能,无需用户进行手动调整。他指出,红杉每天处理7.5亿次查询,相当于数百万亿字节的数据量。分析这些庞大的查询工作负载为我们提供了关于实际使用模式和优化性能机会的深刻洞察。

红杉采用实证的数据驱动方法来自动调整性能。首先,它观察实际的查询模式并识别改进性能的机会,例如优化排序顺序、在节点间重新分配数据或添加索引以提高过滤和连接速度。接着,它将量化预估采取这些举措的可能益处。一旦预期收益达到显著水准,红杉将在后台自动应用这些变更,例如创建物化聚合或排序表。

纳雷什注意到,随着工作负载随时间的变化,Redshift会持续监控查询模式并进行相应的调整以优化自身。这包括主动删除那些基于当前工作负载不再有益的物化视图、索引或表设计。通过不断地自我调整,Redshift能够在随着时间的推移实现持续的性能提升,而无需用户进行任何手动操作。

为了说明这一点,纳雷什分享了一个例子,其中Redshift自动调整了一个30TB的TPC-H工作负载,将性能从100分钟提高到60分钟,提高了40%,而无需进行任何手动更改。这些背景性能提升会在一段时间后自然地出现,提供稳定的快速查询性能。

在总结中,纳雷什概括了Redshift的无服务器架构、跨硅柱集成数据访问以及持续的自主性能优化如何结合在一起,以支持大规模的自助分析服务。他鼓励用户今天就开始尝试Redshift并提供反馈,以帮助推动进一步的创新。

总之,这个深入的视频提供了关于Redshift的无服务器产品、强大的数据集成能力和自动性能优化如何使业务用户能够使用灵活的高性能自助分析的宝贵见解。来自Broadridge的详细客户示例清楚地展示了将分析工作负载迁移到Redshift无服务器可能实现的显著速度提升、运营效率和成本节省。Redshift的持续快速创新旨在使所有数据的先进分析对任何用户都易于访问。

下面是一些演讲现场的精彩瞬间:

雷什菲尔德公司的工程总监纳雷什·钱纳尼在加入亚马逊六年并在数据库领域工作二十年后,在re:Invent上分享了自己的见解和经验。

广布雷奇公司实施了一种数据仓库模式,用于接收和处理金融交易数据,使得客户能够轻松地进行数据分析。

金融数据管理团队始终致力于确保高质量数据的合规性,尽管他们需要在老旧的固定硬件上应对高度变化的工作负载。

借助亚马逊云科技提供的托管集群、安全功能以及集成的监控和日志记录功能,维护成本和时间得到了降低,从而能够快速新增客户和应用。

Redshift的机器学习功能使得用户能够通过利用背后的Amazon SageMaker轻松地从他们的Redshift数据中创建高级的ML模型。

在一项实验中,亚马逊云科技部门的领导人们展示了Redshift的自主能力如何随着时间的推移在大工作量上提高查询性能。

亚马逊云科技Graviton3处理器能够自动优化工作量,将30TB工作量的运行时间从100分钟缩短至60分钟。

总结

纳雷什·钱纳尼(Naresh Chainani)担任亚马逊Redshift的工程总监,他在re:Invent上发表了一篇关于利用亚马逊Redshift无服务器进行自助分析的深度见解的演讲。他首先指出,自助分析使得业务分析师能够在不考虑基础设施决策的情况下,从他们的数据中获得见解,这只需几秒钟的时间。

接着,钱纳尼详细介绍了Redshift如何通过简化计算、简化数据和自主功能来支持自助分析。简化计算允许用户在几分钟内开始使用基于工作负载模式智能地调整计算的Redshift无服务器进行分析。数据简化则帮助分析师使用自动摄取S3和流处理摄取等新功能,跨不同的数据仓库(如S3、流处理源和运营数据库)进行查询。最后,自主性能优化能够识别查询优化的机会并采取自动操作,如创建物化视图,以提供随着工作负载变化的最佳即开即用性能。

随后,来自Broadridge Financial Solutions的Raj Barisa分享了他们将一个内部分析应用程序迁移到Redshift无服务器上,以克服可扩展性和性能挑战的过程。结果显示出令人印象深刻的成果——在相同时间内处理的数据量提高了5倍,查询速度提高了2-75倍,成本降低了3倍。

最后,钱纳尼强调了Redshift简化基础设施和管理性能的能力,以便分析师可以专注于获得见解。Redshift无服务器、流处理摄取和自主调优展示了Redshift如何支持企业内的普遍、快速且经济高效的自助分析。

演讲原文

想了解更多精彩完整内容吗?立即访问re:Invent 官网中文网站!

2023亚马逊云科技re:Invent全球大会 - 官方网站

点击此处,一键获取亚马逊云科技全球最新产品/服务资讯!

点击此处,一键获取亚马逊云科技中国区最新产品/服务资讯!

即刻注册亚马逊云科技账户,开启云端之旅!

【免费】亚马逊云科技“100 余种核心云服务产品免费试用”

【免费】亚马逊云科技中国区“40 余种核心云服务产品免费试用”

亚马逊云科技是谁?

亚马逊云科技(Amazon Web Services)是全球云计算的开创者和引领者,自 2006 年以来一直以不断创新、技术领先、服务丰富、应用广泛而享誉业界。亚马逊云科技可以支持几乎云上任意工作负载。亚马逊云科技目前提供超过 200 项全功能的服务,涵盖计算、存储、网络、数据库、数据分析、机器人、机器学习与人工智能、物联网、移动、安全、混合云、虚拟现实与增强现实、媒体,以及应用开发、部署与管理等方面;基础设施遍及 31 个地理区域的 99 个可用区,并计划新建 4 个区域和 12 个可用区。全球数百万客户,从初创公司、中小企业,到大型企业和政府机构都信赖亚马逊云科技,通过亚马逊云科技的服务强化其基础设施,提高敏捷性,降低成本,加快创新,提升竞争力,实现业务成长和成功。

  • 17
    点赞
  • 15
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值