re:Invent 2023 | 生成式 AI 应用的数据模式

关键字: [Amazon Web Services re:Invent 2023, Amazon Web Services, Data Preparation For Generative Ai, Data Architecture Patterns, Context Engineering With Rag, Fine Tuning Foundation Models, Training Custom Generative Models]

本文字数: 1600, 阅读完需: 8 分钟

视频

如视频不能正常播放,请前往bilibili观看本视频。>> https://www.bilibili.com/video/BV1gK41187h3

导读

生成式 AI 捕获了想象力,并正在改变行业。但要充分利用生成式 AI,您需要一个有效的数据策略。基础模型和其他大语言模型需要特定领域的语料库来进行上下文学习、微调和训练。在本讲座中,您将学习如何制定高效的数据策略,并使用亚马逊云科技的数据服务,如 AmazonAmazon Aurora Zero-ETL、Amazon[Amazon RDS](https://aws.amazon.com/rds/features/#Easy_to_manage?&trk=fcbfde70-6c6d-4967-931b-1a4a4990c211&sc_channel=el " RDS")、Amazon OpenSearch Service 等,来构建生成式 AI 应用程序。此外,您还将了解如何采用以数据为中心的架构模式来加速您的工作。

演讲精华

以下是小编为您整理的本次演讲的精华,共1300字,阅读时间大约是6分钟。如果您想进一步了解演讲内容或者观看演讲全文,请观看演讲完整视频或者下面的演讲原文。

随着生成性AI应用的日益普及,满足定制化体验的需求成为了关注焦点。提供数据给生成性AI系统主要有三种途径:结合检索增强生成的上下文工程(RAG)、微调基础模型和从头开始训练自定义模型。在这三种方法中,结合RAG的上下文工程是最易实现的方法,因为它不需要大量的专业机器学习知识。通过RAG,开发者可以设计提示为基础模型提供行为、情境和语义背景。行为背景包括关于模型如何行动的说明,如采用特定的人物角色或确认其响应。情境背景则利用对话历史和客户数据来定制响应。语义背景则检索相关文档和数据以告知模型的响应。将用户输入与这些上下文数据源一起包装成经过工程的提示后,基础模型可提供个性化且细致的响应。RAG允许开发者在无需自己训练AI模型的情况下,使用自己的数据提供区分化的体验。

RAG管道的细节得到了详细阐述。首先,将领域文档拆解为使用大型语言模型的令牌嵌入。将这些向量表示存储在用于相似性搜索的数据库中。当用户提问时,也使用相同的LLM对问题进行嵌入。然后,将用户的问题嵌入用于在数据库中找到最相似的向量表示,从而检索最相关的文档。这些文档提供语义背景,并与来自对话历史和客户数据的情境背景一起打包到最终的提示中。将此经过工程的提示提供给基础LLM,该LLM生成所有背景数据源的信息的响应。

提及了用于RAG管道每个阶段的几种数据存储选项。提示模板可以存储在AmazonS3或数据库中。对话状态和历史记录非常适合用于像AmazonAmazon DynamoDB这样的NoSQL数据库。情境背景来自包含客户和业务数据的SQL、NoSQL和图形数据库。语义背景向量嵌入存储在专用的向量数据库中。演讲者强调了AmazonAmazon Aurora Zero-ETL PostgreSQL和Amazon OpenSearch Service作为选项。

在选择向量数据库时,有几个关键因素需要考虑。开发者应专注于优化对数据平台的熟悉程度,而非关注技术细节。简化处理向量的抽象有助于提高可扩展性(包括支持的向量数量和维度),这对于业务增长至关重要。性能指标如每秒查询量和召回率也应进行评估。索引和查询算法的灵活性使得定制成为可能。成本通常是最终的决定因素。总的来说,对关系型或非关系型数据库平台的现有熟悉程度通常会指导选择。

演讲者深入探讨了如何准备领域数据和生成嵌入的后台流程。他们使用了诸如亚马逊云科技的Glue、Amazon MSK和Amazon Kinesis等服务来从结构化和非结构化源中获取数据。数据被存储在亚马逊云科技Redshift数据仓库或亚马逊云科技S3数据湖中。然后,使用像亚马逊云科技EMR这样的服务处理数据以准备用于嵌入。接下来,使用LLM生成嵌入并将其存储在向量数据库中。数据通常先批量处理以初始加载,然后再逐步更新数据。在整个过程中,数据治理至关重要,包括编目、访问控制和合规性。演讲者强调了亚马逊云科技的Lake Formation(用于安全和访问控制)和亚马逊云科技Data Exchange(用于数据编目)的重要性。

值得一提的是,RAG(快速灵活原型)、微调、训练自定义模型这三种模式是互补的。大多数客户首先使用RAG进行敏捷原型设计。随着应用的成熟,他们可能会定期调整基础模型以引入更新的背景。偶尔,他们可能从头开始训练自定义模型以纳入专门的数据。通常的过程是从RAG到微调再到训练自定义模型。

演讲者强调,生成性人工智能(AI)需要不断优化其数据策略。为了实现这一目标,需要整合结构化和非结构化数据,以原始格式和向量形式。为了在整个组织内提供统一的视角,需要整合不同的数据孤岛。数据处理管道需要扩展,以便为生成性AI模型准备数据,包括标签、嵌入和微调的工作流程。随着越来越多的用户与生成性AI互动,治理政策、访问控制、合规性和负责任的人工智能方面的考虑因素必须得到加强。通过使用编录技术和业务元数据,使模型能够建立联系。尽管基础模型可能会发生变化,但数据始终是区分优劣的关键因素。公司必须投资于为其特定行业、客户和用例定制的高质量数据的整理。这可以总结为“您的数据就是差异所在。”

为了展示实际应用,演讲者通过一个假设的保险业聊天机器人用例进行了解释。例如,当用户咨询购买汽车保险时,聊天机器人不仅能提供一般的回答,还能利用来自客户数据库的背景信息来确认他们的车辆详细信息并表示问候。此外,聊天机器人还能从保险政策的相关文件中提取信息,以提供更丰富的语境支持。这些都表明了RAG如何使聊天机器人能够提供个性化且数据驱动的响应。

为了将这个过程可视化,演讲者提供了一个包含设计提示各个组成部分的图表。用户的输入会被添加上操作指示,引导模型以保险代理人的身份确认其答复。情境背景则包括从诸如Amazon Kendra等机器学习搜索系统获取的客户姓名、车辆和家庭成员信息等。语义背景则是从保险政策文件中提取的相关信息。将所有这些上下文数据结合起来,形成最终的提示,并将其传递给基本语言模型。

为了使整个过程具有可操作性,提供了使用LangChain Python框架实现生成性AI的代码片段。LangChain提供了用于提示工程、对话记忆、语义检索以及其他亚马逊云科技数据服务(如AmazonAmazon DynamoDB和Amazon Kendra)集成的模块。这展示了如何通过可重复使用的框架和云数据服务来构建RAG管道。

演讲者深入探讨了向量嵌入及其在语义搜索中的应用。文档被拆解成具有不同含义的标记,并通过一个语言模型在高维空间中生成的向量表示。在这个向量空间中,意义相近的标记在数学上是更为接近的。这使得快速计算相似性成为可能,以便识别相关内容。演讲者将嵌入生成技术与文档指纹技术进行了对比。生成的向量数据库可以通过问题嵌入进行查询,以找到最相似的文档。

在亚马逊云科技上,两种向量数据库选项受到了特别关注:带有开源pg_vector扩展的AmazonAmazon Aurora Zero-ETL PostgreSQL和Amazon OpenSearch服务。如果已经使用PostgreSQL或者更喜欢关系型数据库,那么Aurora PostgreSQL是一个自然选择。OpenSearch提供了更多的索引灵活性,对于熟悉NoSQL的用户来说更加友好。例如,法律科技公司CS Disco使用了Amazon[Amazon RDS](https://aws.amazon.com/rds/features/#Easy_to_manage?&trk=fcbfde70-6c6d-4967-931b-1a4a4990c211&sc_channel=el " RDS")上的pg_vector,为律师构建了一个AI助手,从而受益于与其现有的PostgreSQL数据库架构的紧密集成。

演讲者还提出了对基础模型微调的一些建议。总体架构相似,包括摄入、数据湖和仓库中的存储以及嵌入。亚马逊SageMaker提供了用于模型训练的笔记本和工作流程。亚马逊云科技Bedrock通过允许使用存储在亚马逊S3中的带标签的问题/答案数据来自动定制模型,以简化微调过程。只需要几百个示例就能带来有意义的改进。

总的来说,他们重申了所有三种方法(RAG、微调和训练自定义模型)都是互补的。从RAG开始进行敏捷原型设计,定期微调模型以纳入新数据,并偶尔针对专门的使用场景训练自定义模型。在整个过程中,确保您的数据策略不断发展以支持负责任的高质量生成性AI应用程序。关注收集领域特定的数据,因为那将是持久的区别因素。亚马逊云科技提供各种各样的数据服务,以将数据供应给生成性AI系统。

下面是一些演讲现场的精彩瞬间:

亚马逊云科技为客户提供三种不同的模式,以便将他们的数据整合到AI系统中。

这些模式包括利用预构建的模型、微调模型以及训练定制模型。

为了解释向量嵌入的工作原理,演讲者通过将领域数据分割成令牌,并使用LLN生成数字向量,然后在多维空间中找到相似数据的过程进行了阐述。

领导者们强调,客户应该选择他们最熟悉的数据解决方案并重用现有技能,因为快速将产品推向市场比数据存储之间的轻微技术差异更为重要。

亚马逊云科技正通过不断发展数据战略,支持客户在生成性AI中同时利用结构化和非结构化数据。

总结

在亚马逊云科技的re:Invent上,本次演讲主要讨论了在亚马逊云科技上构建生成性AI应用的数据模式。核心观点是,尽管大型语言模型受到了广泛关注,但自身的数据才是创造真正定制且有用的AI体验的关键要素。演讲者阐述了运用生成性AI的三个主要途径:首先,可以通过使用检索增强生成(RAG)框架来进行上下文工程,将数据库和文档中的相关情境、语义和行为背景整合进基础模型中以提高其功能。其次,可以利用自身的问题和答案数据进行现有基础模型的微调,使模型了解业务领域。即使只有几百个样本,也能产生显著效果。最后,可以在精心挑选的特定领域数据上训练完全定制的模型。这是最耗时的方式,因此建议从RAG或微调开始。

演讲者还深入探讨了使用亚马逊云科技服务(如Amazon Kendra、Amazon OpenSearch等)的RAG架构,并强调了正确处理数据存储、安全、合规和管理的重要性。总之,关键在于从RAG出发,然后根据需要扩展到微调和专业培训。然而,最重要的还是要关注数据的准备,因为这是将AI应用与其他应用区分开来的关键。借助亚马逊云科技的数据和ML服务,但始终要铭记,数据才是关键。

演讲原文

https://blog.csdn.net/just2gooo/article/details/135120227

想了解更多精彩完整内容吗?立即访问re:Invent 官网中文网站!

2023亚马逊云科技re:Invent全球大会 - 官方网站

点击此处,一键查看 re:Invent 2023 所有热门发布

即刻注册亚马逊云科技账户,开启云端之旅!

【免费】亚马逊云科技“100 余种核心云服务产品免费试用”

【免费】亚马逊云科技中国区“40 余种核心云服务产品免费试用”

亚马逊云科技是谁?

亚马逊云科技(Amazon Web Services)是全球云计算的开创者和引领者,自 2006 年以来一直以不断创新、技术领先、服务丰富、应用广泛而享誉业界。亚马逊云科技可以支持几乎云上任意工作负载。亚马逊云科技目前提供超过 200 项全功能的服务,涵盖计算、存储、网络、数据库、数据分析、机器人、机器学习与人工智能、物联网、移动、安全、混合云、虚拟现实与增强现实、媒体,以及应用开发、部署与管理等方面;基础设施遍及 31 个地理区域的 99 个可用区,并计划新建 4 个区域和 12 个可用区。全球数百万客户,从初创公司、中小企业,到大型企业和政府机构都信赖亚马逊云科技,通过亚马逊云科技的服务强化其基础设施,提高敏捷性,降低成本,加快创新,提升竞争力,实现业务成长和成功。

  • 22
    点赞
  • 21
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值