关键字: [Amazon Web Services re:Invent 2023, Amazon SageMaker, Data Governance, Data Drift, Data Ethics, Intelligent Data Pipes, Extreme Llm Engineering]
本文字数: 1400, 阅读完需: 7 分钟
视频
如视频不能正常播放,请前往bilibili观看本视频。>> https://www.bilibili.com/video/BV1EQ4y1V7hv
导读
快速发展的数据现代化格局已成为充分利用 AI/ML 潜力的核心支柱。了解数据现代化的最新趋势和创新,以及它们如何与 AI 和 ML 分析的需求相一致。数据现代化超越了传统的障碍,优化了数据的存储、管理和处理。本论坛探索了前沿战略,展示了集成云原生技术和框架(如亚马逊云科技和 Wipro 提供的技术和框架)如何在 AI /ML 应用程序中释放变革性功能。本讲座由亚马逊云科技合作伙伴 Wipro Limited 提供。
演讲精华
以下是小编为您整理的本次演讲的精华,共1100字,阅读时间大约是6分钟。如果您想进一步了解演讲内容或者观看演讲全文,请观看演讲完整视频或者下面的演讲原文。
大家好!演讲者A.R.A在午餐后开始了他的演讲,首先提出了关于re:Invent上球形装置的问题作为破冰。他指出,这个球形装置耗资20亿美元,具有高度适应性,引发了他对真正数据现代化的思考。
他表示,许多数据现代化的尝试仅是将数据迁移到新平台上并宣称实现了现代化。然而,在12至16个月后,企业仍会询问魔法的所在,因为尽管成本增加,但并未看到任何实质性的变化。关键在于将数据分析与数据本身分开,并将关注点放在实现平台的现代化,而非仅仅追求结果。
为了实现真正的现代化,我们需要考虑整个生态系统,构建一个不断进化且真正具有现代感的数据平台,而不仅仅是一个看似现代化的平台。在接下来的12个月内,演讲者将探讨如何成功搭建一个支持分析和人工智能的现代数据平台。
他强调,尽管数据成熟度的基本原则(增强、意识、可用性、适应性和真实性)仍未改变,但在过去的18个月里,我们需要对这些原则进行重新定义。例如,过去认为可用性是指全天候访问或满足批量处理窗口,而现在则指对最终用户随时可用的数据。亚马逊云科技的市场和Data Product即服务范式支持这种新型的可用性。
增强过去指的是建立机器学习模型,而现在则需要手动验证模型并将其适应不断变化的环境。因此,每个原则的定义都需要随之调整,我们必须根据亚马逊云科技的功能来调整我们的实践方式。
对于可用性,我们需要关注数据民主化和Data Product即服务,而不仅仅是成本和全天候访问。这意味着我们需要关注数据产品和数据存储。亚马逊云科技提供了Data Exchange和数据Clean Room来支持可用性。然而,更重要的是要构建针对特定行业的数据服务和API,而非通用API。
演讲者给出了一个CPG公司的例子,他们希望获取多个国家和业务线的定价和库存数据。他们在亚马逊云科技上构建了专门用于提供定价和库存数据的CPG专用API。作为集成商,我们也需要在这些行业中构建类似的特定API。
关于真实性,演讲者提问是否有谁了解数据漂移的含义——用于建模的数据随着时间的推移而改变其行为,从而影响模型。像亚马逊云科技的Glue和数据质量工具这样的工具可以帮助解决这个问题。然而,对于AI而言,关键在于根据行业使用场景构建合成数据来模拟生产数据。
他提供了一个例子,说明一家制药公司需要研发一种用于早期检测癌症的药物。尽管他们有50个不断变化的数据来源,但他们仍然无法找到合适的癌症生物标志物。为他们的特定肿瘤构建合成生物标志物数据有助于创建一个有代表性的数据集。这使得他们将药物研发时间从24-36个月缩短到24个月。
为了确保真实性,还需要考虑AI的负责任数据,例如伦理问题。确保适当的数据来源、治理和验证对于行业来说至关重要。演讲者建议采用ETI框架来验证行业的数据质量和道德规范。目标是评估数据不仅仅是在内部系统中的使用情况,还包括它将如何改变。通过综合行业特定的测试数据来规划数据漂移。
在意识方面,要认识到元数据管理是不够的。实时分析中的数据流动量比静止数据要多得多,因此数据治理必须同时解决这两个问题。采取混合方法,结合亚马逊云科技数据目录和产品如Collibra来治理流动和静止的数据。建立一个所有数据资产的中央数据治理区域。
演讲者给出了一个银行需要为监管合规建立数据脉络的例子。他们已经落后了两年并在支付罚款。他们结合了亚马逊云科技Glue和Collibra来跨系统和添加手动标记治理问题。这表明使用多个合作伙伴来解决多方面的数据治理问题是可行的。
接下来,他讨论了一个电信客户的可用性、真实性和意识相结合的问题。他们在四个业务线中有不及时的数据,不可靠的模型和缺乏集中的治理。仅仅将数据迁移到云端并不能降低成本。解决方案包括:
1)建立一个具有管家角色的集中数据治理区域以协调治理。
2)为业务线并行开发数据访问的API并治理。
3)构建一个信息工厂,并通过快速验证和发布数据的程序来提高效率。
由于关注数据治理,所以实际上用了3.5年而不是一年完成。但这降低了30-35%的成本,并通过治理、API和信息工厂提高了分析速度。
有了成熟的数据生态系统,亚马逊云科技AI可以增强智能。为了提高能力,构建智能数据管道,包含元数据和极端的LLM工程,使用Amazon CodeWhisperer迅速创建定制的AI聊天机器人。
演讲者提出了一个投资银行家为高净值个人提供个性化聊天机器人顾问的案例。他们采用CodeWhisperer,根据每位客户的需求和数据定制董事会,具备自我学习能力。此举旨在优化客户服务并降低客户流失率。
在适应性方面,演讲者关注了个性化增强分析之外的其他方面。亚马逊云科技拥有丰富的探索式增强功能。同时,通过使用Amazon Neptune等图形数据库,模型会随新增数据源而持续更新。
演讲者还分享了一家消费品公司在北美推出欺诈检测解决方案的经验。他们利用Neptune的图形数据库,轻松地将建模扩展到了其在24个其他国家的运营中。这展示了图形数据库在面对变化数据时的适应能力。
总的来说,演讲者概述了一家保险公司的全面现代化措施。尽管他们已经成功地采用了目录系统,但在索赔、政策服务和建模方面仍面临挑战。为了解决这些问题,该公司选择了与亚马逊云科技合作的解决方案:
-
通过构建自定义模型并利用亚马逊云科技的增强功能来提高欺诈检测能力,将解决时间缩短15%。
-
通过改进政策服务,将承保生产力提高5-7%。
-
通过引入接触中心管理工具,将客户服务响应速度提高3%。
这些举措展示了从固定数据结构转向利用亚马逊云科技实现可用性、实时性和适应性的现代分析过程。
最后,演讲者强调,尽管亚马逊云科技提供了技术支持,但集成商仍需构建针对业务问题的治理区域、信息工厂和产业API,以实现真正现代化。他鼓励观众思考自己在数据之旅中的地位,以及是否需要调整现代化策略。借助一系列亚马逊云科技工具,集成商可以实施数据转型。然而,这需要关注不断发展的功能,如数据即服务、数据伦理框架和极端长篇幅语言(LLM)工程,以取得成功。
下面是一些演讲现场的精彩瞬间:
领导者强调,在向现代数据架构转型过程中,针对不同类型的静态数据和动态数据采用不同的数据治理策略至关重要。
领导者还强调了从传统的元数据管理向关注动态数据的现代化信息治理转变的重要性。
一个集中式的数据治理区域对于实现成功的数据分析和人工智能应用至关重要。
亚马逊云科技已经开发出一个定制的大型语言模型(LLM),专为高净值个人提供个性化的财务建议。
为了建立一个成熟的数据组织,需要整合各种工具、建立治理结构、构建应用程序接口、开发和优化大型语言模型,并在新应用场景中持续监控数据偏差。
最后,领导者再次强调了制定合适的数据现代化策略的重要性。
总结
这段演讲探讨了数据现代化的新趋势,旨在利用亚马逊云科技实现AI和ML分析。发言人指出,传统的数据现代化主要关注将数据迁移到云端,但却未能实现商业价值。相反,他倡导采用一种以业务成果为导向的进化策略。
首先,为了提高可用性,应通过行业特定的API和数据产品而非仅依赖基础设施来实现自助服务数据访问。例如,为一家消费品公司构建一个定制API,以提供实时产品库存和价格信息。
其次,为了保持数据的真实性,需要在应用AI时减少数据漂移的影响,这需要借助合成数据和负责任的数据实践(如道德采购)。例如,尽管现实生活中数据不断变化,但仍可使用合成的生物标志数据来研发新型癌症药物。
最后,为了确保数据意识,需要同时掌控静态数据和动态数据。这种混合方法结合了亚马逊云科技的数据目录与Collibra等合作伙伴的企业数据谱系。一家银行就使用了这种方法来满足监管要求。
总的来说,现代数据分析需要超越简单的平台迁移,转而关注建立以业务为中心的数据API、合成测试数据以及混合数据治理。亚马逊云科技确实提供了这些支持技术,但成功的实现取决于客户聚焦的解决方案。
演讲原文
https://blog.csdn.net/just2gooo/article/details/134819513
想了解更多精彩完整内容吗?立即访问re:Invent 官网中文网站!
2023亚马逊云科技re:Invent全球大会 - 官方网站
点击此处,一键获取亚马逊云科技全球最新产品/服务资讯!
点击此处,一键获取亚马逊云科技中国区最新产品/服务资讯!
即刻注册亚马逊云科技账户,开启云端之旅!
【免费】亚马逊云科技中国区“40 余种核心云服务产品免费试用”
亚马逊云科技是谁?
亚马逊云科技(Amazon Web Services)是全球云计算的开创者和引领者,自 2006 年以来一直以不断创新、技术领先、服务丰富、应用广泛而享誉业界。亚马逊云科技可以支持几乎云上任意工作负载。亚马逊云科技目前提供超过 200 项全功能的服务,涵盖计算、存储、网络、数据库、数据分析、机器人、机器学习与人工智能、物联网、移动、安全、混合云、虚拟现实与增强现实、媒体,以及应用开发、部署与管理等方面;基础设施遍及 31 个地理区域的 99 个可用区,并计划新建 4 个区域和 12 个可用区。全球数百万客户,从初创公司、中小企业,到大型企业和政府机构都信赖亚马逊云科技,通过亚马逊云科技的服务强化其基础设施,提高敏捷性,降低成本,加快创新,提升竞争力,实现业务成长和成功。