ANT340 | 索尼果园如何利用 Amazon Managed Streaming for Kafka 加速创新

ANT340 | 索尼果园如何利用 Amazon Managed Streaming for Kafka 加速创新

关键字: [Amazon Web Services re:Invent 2023, Amazon MSK, Real-Time Data Analytics, Event-Driven Architecture, Operational Efficiency, Accelerating Innovation, Managed Apache Kafka]

本文字数: 1800, 阅读完需: 9 分钟

视频

导读

在本次分享中,索尼音乐娱乐的子公司果园分享了其如何使用 Amazon Managed Streaming for Kafka 构建高性能数据同步解决方案。通过使用这种高可用性的托管服务,索尼果园将数据同步时间从 10 小时缩短至 30 分钟,成为事件驱动式架构的范例,并改进了搜索功能。了解 Amazon Managed Streaming for Kafka 如何帮助索尼果园加快创新速度,并为员工和客户提供近乎实时的数据访问。

演讲精华

以下是小编为您整理的本次演讲的精华,共1500字,阅读时间大约是8分钟。如果您想进一步了解演讲内容或者观看演讲全文,请观看演讲完整视频或者下面的演讲原文。

在会议开始时,亚马逊云科技的主要产品经理维迪·塔尼贾(Vidhi Taneja)热情地欢迎了与会者。她介绍了乌马尔·法鲁克(Umar Farouk),他是索尼音乐分销和版权管理部门果园(The Orchard)的数据工程团队的负责人。据维迪介绍,他们的讨论将围绕果园和其他客户如何利用亚马逊管理的Apache Kafka实时数据访问(Amazon MSK)来加速创新并缩短新产品开发周期的问题展开。

首先,维迪通过强调实时数据如何为企业带来巨大的价值来为讨论奠定基础。她引用了一份福雷斯特(Forrester)报告,该报告发现数据的保质期非常短。关键在于能够在数据生成时进行分析并采取行动。维迪分享了一个统计数据,即通过启用实时客户分析,58%的受调查企业实现了更好的客户保留和忠诚度。其他好处包括做出及时和准确的商业决策的能力,发掘新的机会,以及针对每个组织和其用户构建智能产品和服务。

接下来,维迪提供了一些实时数据使用案例的例子。电子商务网站监控用户行为和点击流数据以提供个性化的产品推荐。银行实时分析交易以检测和防止欺诈。IoT设备持续传输数据以监测异常情况。而像Kafka这样的流数据平台为所有这些下一代体验提供动力。

她指出,Kafka已经成为最受欢迎的数据流平台之一,被超过80%的《财富》100强公司信任。它可以以高吞吐量和低延迟摄入数据,然后将数据按生成的顺序提供给下游应用程序。Kafka具有高度耐用性、容错性和丰富的工具和连接器生态系统。这些功能允许开发创新的实时应用程序。

虽然Kafka功能强大,但在建设和管理方面可能会遇到挑战。为了实现高可用性和可扩展性,企业需要付出繁琐且耗时的努力,这可能会阻碍其灵活性、增长和成功。许多公司还缺乏适当的内部Kafka专业知识来运营和优化Kafka环境。在规模上保持Kafka的高可用性可能是困难且昂贵的。开发人员通常需要在基础设施管理上投入时间,而不是专注于构建应用程序和产品。

为了解决这些问题,亚马逊云科技推出了Amazon MSK,这是一个用于Apache Kafka和Kafka Connect的完全托管的服务。Amazon MSK解决了部署和管理Kafka集群的所有复杂性。它利用了运行数千个Kafka集群的经验,采用了经过验证的运营最佳实践和大量的自动化。使用Amazon MSK,开发人员可以专注于创建能够加速业务目标的应用程序,而不需要管理Kafka。

接下来,Vidhi详细阐述了Amazon MSK的一些关键特性和功能。它与开源Apache Kafka完全兼容,无需任何代码更改即可实现现有部署的迁移。它的性能达到了甚至超过了自管理的Kafka。亚马逊云科技在7天内提供新的Kafka版本,允许通过滚动更新进行可选升级而无需停机。

默认情况下,亚马逊云科技MSK群集在高可用性下部署,分布在多个Availability Zones中。客户在不跨AZ收费的情况下不需要数据复制费用。如果ZooKeeper、代理或存储等任何组件出现故障,Amazon MSK将自动替换它们以维持最高正常运行时间。支持通过添加代理来实现水平扩展,并通过更改实例类型和大小来实现垂直扩展。

多项安全功能提供了多层次的防御。数据在传输和静止时都进行了加密。IAM策略支持粒度细化的访问控制。VPC隔离、安全组和TLS身份验证保护了应用程序。

Vidhi解释了Amazon MSK与亚马逊其他服务的深度集成如何简化使用Amazon MSK构建应用程序。例如,可以使用亚马逊云科技Kinesis Data Streams进行流数据输入。Amazon MSK可以与亚马逊云科技Lambda本机集成,实现无服务器对流的消费。亚马逊云科技Glue Schema Registry有助于管理Kafka主题的架构。可以使用亚马逊云科技Kinesis Data Analytics(Managed Apache Flink)进行流处理。

维迪表示,数以万计的客户依赖于亚马逊MSK来处理关键工作负载和实时应用程序。为了满足将数据保留更长时间的需求,亚马逊MSK已经开发出了新的存储分层功能,提供实际无限可扩展的较低成本层存储。这种分层存储还可以实现独立的存储扩展,不依赖于计算资源。

亚马逊MSK提供了多种选项以满足不同的需求。用户可以选择亚马逊MSK Provision,以便完全控制集群配置和自动扩展。此外,亚马逊MSK无服务器是基于使用自动扩展容量并根据吞吐量收费的。最后,亚马逊MSK连接提供了一个完全管理的Kafka连接环境。

维迪强调,自从2018年公开推出以来,亚马逊MSK已经取得了显著的增长。如今,每天都有大量客户依赖亚马逊MSK进行流应用和任务关键的系统骨干。她对客户对亚马逊MSK的信任表示感谢。

随后,维迪邀请了乌马尔·法鲁克讨论果园如何利用亚马逊MSK加速创新和提高效率。乌马尔首先介绍了自己和他的团队,果园是一家由索尼音乐拥有的音乐分发和版权管理服务公司,致力于帮助艺术家将他们的音乐传递给数字平台、实体媒体和其他渠道的粉丝。乌马尔领导着果园的数据平台工程团队。

他指出,尽管果园的分散式团队和方法鼓励了创新,但同时也带来了挑战。随着分布式团队和系统之间快速增长的相互依赖性,复杂性逐渐显现。数百个由不同团队拥有的微服务必须互相交换数据,导致了一个复杂的点对点连接网络。

在过去,团队会使用他们偏好的语言进行一次性的ETL作业,将数据从一个数据库复制到另一个数据库。随着时间的推移,这导致了关于数据来源的困惑。随着连接网络的增长,扩展和调试变得越来越困难。整个组织的创新速度因此减缓。

为了实现所有这些系统之间的无缝互操作性,The Orchard成立了一个跨部门平台团队,团队成员来自各个产品团队。Umar随后通过具体案例展示了他们如何创造价值、支持事件驱动的架构以及利用Amazon MSK提高效率。

首先,The Orchard关注改进搜索功能,这是用户面临的主要问题。分析团队使用Snowflake进行报告,而从Neo4j中复制图形数据需要10小时。直接在Neo4j上进行搜索速度慢且不灵活。

他们设置了Amazon MSK并使用Kafka Connect将数据从Neo4j实时流式传输到OpenSearch,从而消除了10小时的复制任务。此外,还有一个连接器将Snowflake数据流式传输到使用指标丰富化的Kafka主题。这些在Opensearch中进行连接和索引以支持智能搜索排名。

这提高了搜索速度、准确性和灵活性。它使新内容的即时可见性取代了等待数小时进行批量复制的情况。在Kafka中合并数据集还启用了有价值的特性,如基于使用的搜索排名。

接下来,Umar解释了如何通过使用Amazon MSK作为通用消息总线来支持事件驱动的架构。例如,他们通过同步外部网站解决了之前的痛点。在使用Cron作业定期将数据拉取到外部站点的过程中,会导致失去同步。

使用Amazon MSK,他们在专辑状态更改时发布事件。规则通过Kafka连接器实时将通知路由到经理和外部站点。这消除了低效的轮询和手动状态检查。

另一个用例是人才猎手在电子表格中跟踪新兴艺术家。要使用外部数据丰富电子表格需要复杂的导出和上传步骤。相反,他们将电子表格的更改直接流式传输到Kafka,然后将其路由到下游仪表板和应用。

Umar总结说,这些变化极大地提高了团队的生产力和创新速度。以前需要几周的工作流程现在只需要几天。需要10小时的数据同步现在只需要30分钟。数据发现从几小时缩短到几分钟。

这导致了更高的客户满意度、留存率、可操作的见解和更高效的开发者。Umar分享了所学的经验教训——尽早证明价值,获得组织内的认可,并强调简单性。

在未来的发展中,果园正致力于进一步拓展其平台规模并推动额外的成本优化。Umar负责将此内容交还给Vidhi以获取最终意见。

Vidhi回顾了一下亚马逊MSK的主要功能。它提供了一个完全托管的、高可用性、安全且可扩展的Kafka环境,同时还支持Kafka Connect。与亚马逊云服务的高度集成简化了应用程序的构建过程。灵活的计费选项适应了各种需求。

总的来说,Vidhi对观众的参与和对将亚马逊MSK用于关键任务工作负载的客户表示感谢。演示表明,亚马逊MSK如何帮助像果园这样的公司加速创新,降低成本,并释放实时数据的价值。

下面是一些演讲现场的精彩瞬间:

亚马逊云科技助力像索尼这样的客户,通过使用Amazon MSK等服务,将开发时间从数周缩短至数天,从而加速创新进程。

领导者们探讨了一种新系统,能够主动通知用户更改信息,而无需他们不断查询更新。

此外,领导者们还讨论了人才代理机构如何利用电子表格和第三方系统来追踪评估新员工潜力的各项指标。

亚马逊云科技为整个组织内的各个团队提供了一个易用性统一的平台。

亚马逊云科技正致力于在整个组织内进一步推广其事件驱动架构,以便发掘新的应用场景并推动额外的成本优化。

亚马逊云科技提供了一整套由MSK Connect支持的全托管Kafka环境以及带有Blue Schema Registry的架构治理方案。

总结

索尼果园的Umar Farouk以及亚马逊云科技的Vidhi Taneja分享了关于果园如何借助Amazon MSK来加速创新的见解。Taneja首先讲述了Amazon MSK的背景知识,这是一款完全托管的Apache Kafka服务,能够免除对Kafka进行自我管理的运营负担。MSK具备高可用性、可扩展性、安全性和与亚马逊云科技服务的原生集成。Farouk详细阐述了果园如何通过将数据更改实时传输至OpenSearch来优化搜索功能,从而消除了长达10小时的延迟。接着,他们利用MSK中的事件通知功能实现了音乐发行变化的自动更新,相较于持续手动检查有了显著的提升。最后,他们将Google表格的更改实时传输至仪表板,实现了人才发掘工作流程的自动化。总之,MSK通过轻松获取实时数据,使得团队的数据项目周期从数周缩短至数天。Farouk强调了关注在首个应用场景中证明价值并让平台易于使用的必要性。展望未来,果园将持续扩大MSK的规模并优化其成本。

演讲原文

想了解更多精彩完整内容吗?立即访问re:Invent 官网中文网站!

2023亚马逊云科技re:Invent全球大会 - 官方网站

点击此处,一键获取亚马逊云科技全球最新产品/服务资讯!

点击此处,一键获取亚马逊云科技中国区最新产品/服务资讯!

即刻注册亚马逊云科技账户,开启云端之旅!

【免费】亚马逊云科技“100 余种核心云服务产品免费试用”

【免费】亚马逊云科技中国区“40 余种核心云服务产品免费试用”

亚马逊云科技是谁?

亚马逊云科技(Amazon Web Services)是全球云计算的开创者和引领者,自 2006 年以来一直以不断创新、技术领先、服务丰富、应用广泛而享誉业界。亚马逊云科技可以支持几乎云上任意工作负载。亚马逊云科技目前提供超过 200 项全功能的服务,涵盖计算、存储、网络、数据库、数据分析、机器人、机器学习与人工智能、物联网、移动、安全、混合云、虚拟现实与增强现实、媒体,以及应用开发、部署与管理等方面;基础设施遍及 31 个地理区域的 99 个可用区,并计划新建 4 个区域和 12 个可用区。全球数百万客户,从初创公司、中小企业,到大型企业和政府机构都信赖亚马逊云科技,通过亚马逊云科技的服务强化其基础设施,提高敏捷性,降低成本,加快创新,提升竞争力,实现业务成长和成功。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值