re:Invent 2023 | Electronic Arts 如何通过 Amazon EMR 使其数据平台现代化

关键字: [Amazon Web Services re:Invent 2023, Amazon EMR, Data Platform Modernization, Electronic Arts, Amazon Emr, Data Processing, Game Telemetry]

本文字数: 1600, 阅读完需: 8 分钟

视频

如视频不能正常播放,请前往bilibili观看本视频。>> https://www.bilibili.com/video/BV1pN411j76u

导读

Electronic Arts (EA) 每天处理 300 多亿个事件,以更好地了解其游戏标题、功能使用和玩家行为。该数据被馈送到一个基于 PB 级本机 Apache Hadoop-/Hive 的数据处理平台中,该平台为 EA 的其余部分提供见解。在本讲座中,您可以学习到 EA 如何通过迁移到 Amazon EMR(包括将 HDFS 迁移到 Amazon S3 以及将500多个 ETL 作业迁移到 Amazon EMR 上的 Apache Spark)来实现数据平台的现代化。他们还采用了 Amazon Glue Data Catalog 来取代 Hive Metastore。了解 EA 如何将数据处理 SLA 提高了几个小时,将 TCO 降低了约 20%,并扩展到在零停机的情况下处理 2 倍的数据量。

演讲精华

以下是小编为您整理的本次演讲的精华,共1300字,阅读时间大约是6分钟。如果您想进一步了解演讲内容或者观看演讲全文,请观看演讲完整视频或者下面的演讲原文。

电子艺界(EA)作为全球领先的视频游戏公司之一,拥有分布于世界各地的20多家工作室,致力于制作诸如FIFA、Battlefield、Madden和The Sims等旗舰游戏。EA为全球大量玩家提供多种游戏平台,包括Xbox、PlayStation、PC在线和移动设备。

EA在全球范围内设有20多家工作室,负责开发各种类型的游戏,每个工作室都在独特的文化和架构下独立运营。例如,Madden NFL等体育游戏有特定的发布季节,而移动游戏项目则全年不间断地发布。正如亚马逊EMR的主要产品经理Shiva Verma所言,EA的使命便是激发全球对游戏的热爱。

凭借众多工作室和游戏,EA每日处理着数万亿条遥测数据行。这些数据来源于内部游戏服务器、外部合作伙伴(如Sony和Microsoft)以及用户游戏操作等多个渠道。EA具备强大的事件收集服务,能够无缝收集所有这些数据并将其加载到Amazon S3中。

正如EA的数据和分析工程高级总监Alex Ignatius所解释,一个中央数据平台对于整合各个工作室的数据至关重要。如果没有这个平台,每个工作室在做出决策之前都必须自行构建基础设施。因此,EA的数字平台团队提供一个用于数据获取、收集、处理、合规、丰富和交付的平台即服务。这使得每个工作室能专注于游戏开发,同时将数据提供给各种消费者,如制作人、数据工程师、游戏艺术家和销售团队。此外,该平台还能支持消息服务和直接集成到游戏中的实时功能等功能。

在过去10多年里,传统的EA数据平台逐渐积累了多种技术,包括供应商和开源堆栈。然而,这个过时的平台面临一些挑战:

  • 过去10多年来,积累了大量组件,许多相互依赖且升级周期缓慢。
  • 缺乏有效的自动扩展能力,导致一个领域的瓶颈限制了整体可扩展性。
  • 随着数据量的迅速增长,运营开销也在不断上升。
  • 无法满足不断增长的实时、批处理和交互式工作负载的业务需求。
  • 随着技术增多和文件格式增多,成本和管理挑战日益严重。

艾尔克斯解释道,电子艺术公司(EA)一直面临着“数据风暴”的挑战,这里的数据量和需求已经超出了其能力范围。尽管过去数据每5年翻一番,但现在每年甚至每两年就会翻一番。此外,新的业务需求,如机器学习和自助服务,也在不断增加。为了实现架构现代化,EA计划在亚马逊云科技平台上构建一个灵活、解耦的下一代平台,该平台应支持他们当前平台所依赖的开源框架,如Apache Spark、Hive和Flink。这个平台应在作业级别而非队列级别提供可预测的服务质量,并能独立扩展计算和存储以满足需求。此外,它应能减少运营开销,并启用持续集成/持续部署(CI/CD)管道,以实现可量化的服务质量改进和成本节约。在经过评估选项后,EA选择了Amazon EMR作为满足这些要求的解决方案,这是一个在亚马逊云科技生态系统中优化的全托管大数据处理平台。正如Shiva Verma所说,EMR使用像Spark、Hive、HBase这样的框架支持PB级的数据处理。通过自动调配、调整和集群管理,它使得创建、操作和扩展大数据环境变得简单。EMR通过将计算与存储分离来节省50%的成本,从而消除了对硬件的依赖,允许每个部分独立扩展。EMR还通过EBS卷直接访问S3中的数据,从而消除了向EMR迁移时的数据移动。EMR还提供了用于数据科学家的交互式分析工具EMR Studio,并与SageMaker Studio进行了集成。它提供了多种部署选项,包括EC2上的EMR、EKS、EMR无服务器和亚马逊云科技Outposts。EMR可以在亚马逊S3中运行,避免了在迁移到EMR时数据移动的问题。向EMR的迁移是在一年的时间内进行的,没有停机时间,并且具有持续的向后兼容性。艾尔克斯解释说,由于不断的游戏发布,电子艺术公司没有迁移工作流迁移的奢侈。传统和新平台必须不断同步,以避免影响客户的延迟。电子艺术公司的旧架构将遥测数据输入到S3中,然后在一个500个节点的Hadoop集群中处理,该集群拥有3PB以上的HDFS存储,然后将其移动到S3中供使用。这涉及到HDFS和S3之间的大量数据移动。新的EMR架构通过使用EBS卷使EMR能够直接访问S3中的数据来消除这种无效的数据洗牌。亚马逊云科技Glue被用来整合Hive、Glue目录和DynamoDB之间的元数据。

EA采取了一种按照任务进行迁移的方式,而非逐步进行工作流程迁移,重点关注最重要的30%任务。这些任务采用12个并行的波浪式平衡开发与部署。亚马逊云科技ProServe团队协助开发工作,使EA的工程师能够专注于测试、验证和切换。

在迁移过程中,EA进行了大量的前期努力,对2000多个任务进行了分类,根据计算、存储、服务等级要求和业务关键性进行分类。这有助于创建超过20个预定义的EMR集群“T恤”大小,使得工程师们无需决定实例类型。

在过渡期间,新的EMR和旧的Hadoop任务会同时运行,并通过持续集成实现。EA的团队确保平台之间的同步元数据和输出,以提供无缝的客户体验。例如,当收到一个查询时,EA会重写该查询以针对正确的目录并将其发送到正确的平台——新的EMR或旧的Hadoop。

EA的数据平台迁移的成果包括:

  • SLA性能提高90分钟(50%)
  • 总拥有成本降低20%
  • 处理同比每年同比增长113%的假日流量
  • 每日平均数据量增长53%
  • 为客户提供一致的SLAs

正如Alex所分享的,即使是在FIFA世界杯发布期间创下了记录的数据量,新的EMR架构依然表现出色。任务级别的隔离对于防止一个游戏的工作负担影响其他游戏至关重要。

从EA的经验中吸取的关键教训包括:

  • 了解业务利益并定义成功标准
  • 将工作负载分解成具有共同配置的文件
  • 制定适合环境的分阶段迁移计划
  • 迁移后优化配置
  • 不断调整平台以满足不断变化的需求

通过精心的前期规划和迭代执行,EA成功地将其传统的Hadoop架构迁移到Amazon EMR,而没有业务中断。利用像EMR、S3和Glue这样的托管服务,他们能够在其游戏数据持续增长的情况下提高性能、扩展性和成本效率,每两年数据量就会翻倍。

EA利用的一些关键的亚马逊云科技服务和功能包括用于PB级数据处理的Amazon EMR,支持Spark、Hive、HBase和其他框架。EMR提供了比他们的Hadoop环境更快的性能、更简单的集群管理和更低的成本。

遥测数据被收集并存储到亚马逊S3中,作为数据湖供EMR处理。此举消除了数据移动的需求。为了实现最佳的价格性能,使用Graviton等亚马逊EC2实例类型运行EMR集群。此外,利用EC2 Spot实例可以降低计算成本,而EMR的自动终止集群策略也有助于降低成本。使用EMR Studio作为ETL开发和数据科学家的集成式基于笔记本开发环境。借助EMR管理功能,可以根据利用率自动调整集群资源,从而防止过度分配和高额成本。同时,将亚马逊Glue数据目录用作跨平台的统一元数据存储,使得作业能够无缝地从Hadoop过渡到EMR。另外,使用亚马逊DynamoDB作为EMR的metastore,以提供低延迟访问。通过使用亚马逊云科技CloudWatch、Prometheus和Grafana,可以对EMR作业和集群进行可观察性和监控。最后,利用亚马逊云科技ProServe加速新EMR作业和集群的开发。总的来说,EA通过使用EMR和其他亚马逊云科技服务成功地将过时的大数据平台现代化。这一迁移提高了性能,适应了激增的数据量,降低了成本,并为客户提供了持续的SLAs。所有这些都在过渡期间实现了最小的业务中断。

下面是一些演讲现场的精彩瞬间:

全球数据量的增长速度非常快,预计到2025年将达到180泽字节,这是分析师报告的结果。

亚马逊云科技的数据平台团队每天处理数百亿行数据,对其进行清洗,并以多种格式提供给数百个数据团队使用。

领导者们强调在迁移过程中持续监控和测试每个阶段的重要性,以便优化资源使用并确保他们正朝着正确的方向前进。

领导者们强调了在迁移到云端之前对任务进行彻底分类并建立框架的重要性。

领导者们描述了亚马逊云科技如何投资于框架,使工程师能够轻松地启动和管理集群和部署,从而实现零停机时间、向后兼容性和可观察性的迁移工厂模式。

动视暴雪利用亚马逊云科技的ProServe来集中内部团队的验证、测试、部署和迁移工作,同时亚马逊云科技负责构建和部署新服务。

总结

电子艺术对其数据平台进行了现代化的改造,以适应不断增长的数据量和速度。传统的系统由紧密连接的组件构成,这使得扩展面临着挑战。EMR提供了一种利用开源框架处理PB规模数据的托管大数据解决方案。为了实现这一目标,电子艺术在规划方面投入了大量的资金,包括分析作业、定义集群配置和建设框架。这使得迁移实现了工厂模式。工程师只需根据作业需求选择预定义的集群类型,而无需决定实例类型。电子艺术通过使用长期运行和临时集群的组合来优化成本和性能。直接在S3上操作消除了对HDFS数据移动的需求。通过重新编写查询来实现元数据集成,从而提供了一致的视图。这使电子艺术的SLA超过了90分钟,同时总拥有成本降低了20%。作业级别的隔离确保了峰值流量不会影响服务级别协议。与亚马逊云科技的合作伙伴关系对于推动电子艺术数据平台的演进至关重要。

演讲原文

https://blog.csdn.net/just2gooo/article/details/134789389

想了解更多精彩完整内容吗?立即访问re:Invent 官网中文网站!

2023亚马逊云科技re:Invent全球大会 - 官方网站

点击此处,一键获取亚马逊云科技全球最新产品/服务资讯!

点击此处,一键获取亚马逊云科技中国区最新产品/服务资讯!

即刻注册亚马逊云科技账户,开启云端之旅!

【免费】亚马逊云科技“100 余种核心云服务产品免费试用”

【免费】亚马逊云科技中国区“40 余种核心云服务产品免费试用”

亚马逊云科技是谁?

亚马逊云科技(Amazon Web Services)是全球云计算的开创者和引领者,自 2006 年以来一直以不断创新、技术领先、服务丰富、应用广泛而享誉业界。亚马逊云科技可以支持几乎云上任意工作负载。亚马逊云科技目前提供超过 200 项全功能的服务,涵盖计算、存储、网络、数据库、数据分析、机器人、机器学习与人工智能、物联网、移动、安全、混合云、虚拟现实与增强现实、媒体,以及应用开发、部署与管理等方面;基础设施遍及 31 个地理区域的 99 个可用区,并计划新建 4 个区域和 12 个可用区。全球数百万客户,从初创公司、中小企业,到大型企业和政府机构都信赖亚马逊云科技,通过亚马逊云科技的服务强化其基础设施,提高敏捷性,降低成本,加快创新,提升竞争力,实现业务成长和成功。

  • 21
    点赞
  • 22
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值