re:Invent 2023 | 使用 Databricks Lakehouse AI 在几天内构建和部署生成式 AI 应用程序

关键字: [Amazon Web Services re:Invent 2023, Databricks, Generative Ai, Databricks, Fine Tuning Models, Vector Search, Retrieval Augmentation]

本文字数: 1200, 阅读完需: 6 分钟

视频

如视频不能正常播放,请前往bilibili观看本视频。>> https://www.bilibili.com/video/BV1ha4y1R7Yi

导读

随着许多企业已经在这一领域投资,生成式 AI 有可能扰乱每个行业。但构建差异化的生成式 AI 解决方案需要公司使用其独特的数据,并构建适合其领域的解决方案。加入本论坛,了解如何使用企业数据快速构建和部署生成式 AI 解决方案,无论是使用开源大语言模型和检索增强生成(RAG)构建问答机器人,还是构建自己的自定义模型。听 Block(Square)讲述他们如何使用 Databricks AI 通过提示、RAG 和微调,管理使用其数据定制的生成式 AI 应用程序。本演示文稿由亚马逊云科技合作伙伴 Databricks 为您带来。

演讲精华

以下是小编为您整理的本次演讲的精华,共900字,阅读时间大约是4分钟。如果您想进一步了解演讲内容或者观看演讲全文,请观看演讲完整视频或者下面的演讲原文。

本次演讲主要阐述了公司如何通过Databricks Lakehouse平台快速构建和部署生成性AI应用的过程。来自Databricks的Inna Colliver和Clubhouse的Bradley Ason两位专家分别从Databricks技术栈和实际客户案例的角度进行了深入解析。

Colliver女士首先对当前生成性AI的发展现状进行了概括。她表示,随着企业寻求通过使用大型语言模型(LLM)提供独特的客户体验以保持竞争力,生成性AI正逐渐改变众多行业的格局。然而,尽管底层技术在各大供应商之间日益普及,但企业的专属高质量数据仍然是其核心竞争力所在。面临的挑战在于整合整个组织内各个系统的孤立数据源。例如,Colliver女士指出,大型企业通常最终拥有用于数据仓库、BI、数据科学和机器学习的分散式系统,这些系统在不同地理区域实施。这种去中心化导致了数据源的脱节,产生了重复、不一致的管理问题,以及需要技术资源来将所有内容拼凑在一起的问题。

为了解决这一问题,Databricks推出了Lakehouse概念。Lakehouse通过将数据仓库、特征商店和机器学习平台的功能整合到一个单一集成系统中,消除了数据孤岛。这为企业提供了一个统一的框架,支持从数据准备到模型开发和部署的端到端生成性AI需求。

接着,Colliver女士深入探讨了Databricks如何在各个环节通过特定功能支持生成性AI应用的构建:在数据准备阶段,Vector Search技术可以将文档建立索引,以实现在检索增强过程中的低延迟语义搜索。它可以摄入任何Delta表,并将其同步到由Databricks管理的向量搜索索引中。该索引在Delta表发生变化时能自动更新。此外,AI网关抽象层允许在不同嵌入模型之间进行切换。同时,Feature Serving实现了从Delta表中按需提供低延迟的特征服务。用户可以通过自定义UDFs来封装特征计算逻辑,并作为终点暴露出来供ML模型利用。这种方式既支持缓存的特

在模型开发方面,Databricks采用AutoML技术简化组织数据嵌入模型的微调工作流程,无需编写代码。此外,该公司还提供了工具以微调和预训练基本模型,同时确保完整的控制权和知识产权。最近,Databricks收购了MosaicML,引入了其最新的技术,可以在降低计算成本的同时实现高效的模型预训练,最高可降低7倍的计算成本。

在部署方面,Databricks为自定义模型、经过微调的模型以及外部模型(如来自OpenAI的模型)提供统一的模型服务。MoFlow AI网关作为代理,在使用不同LLM之间切换时提供一致的用户界面。Databricks能够自动优化服务的模型,以降低成本和延迟。最后,Lakehouse监控系统提供集成的数据和模型监控功能,通过简化根本原因分析,统一了ML和数据分析。

随后,Colliver女士将舞台交给了Ason先生,他通过现实生活中的案例展示了基于Databricks的生成性人工智能的应用。他分享了Clubhouse如何利用该平台开发解决方案,例如使用自然语言对话调用后端API和客户面对面的聊天机器人。

对于自然语言API用例,Ason先生解释了如何使用MLflow等功能和服务端点,Clubhouse可以轻松跟踪使用不同LLM和链路的实验。公司快速构建了超过100个不同的端点。与每次更换应用程序代码相比,交换模型要简单得多。

客户聊天机器人用例主要依赖于向量搜索,以摄入Clubhouse现有的知识库内容,并向LLM呈现相关信息。例如,一个关于返回近期订单查询的用户可能会通过特征服务获取订单详情,从而构建一个有用的响应。Ason先生强调了能够独立迭代搜索索引数据与提示和模型本身的重要性。

Ason先生还介绍了Clubhouse已经开始微调基础模型以减少延迟和成本的情况。他解释了Databricks收购的MosaicML技术如何简化了历史上复杂的模型训练过程。微调使Clubhouse能够将模型大小从130亿参数减少到1-30亿,并相应地提高了延迟性能。

在总结中,科里弗女士强调了针对开发生成性人工智能应用的迭代方法的重要性。她建议先使用简单的检索增强技术起步,然后逐步采用更高级的技术,如微调预训练模型,以构建更复杂的功能。阿松先生分享了Clubhouse的成功经验,例如在后端抽象模型以提高灵活性,利用推理日志和客户反馈数据进行改进,并确保高质量通过输入输出过滤。在敏感的使用场景中,自托管优化模型对安全性和性能至关重要。

总的来说,这些演讲强调了Databricks Lakehouse如何克服构建和部署大规模生成性AI的主要挑战。通过打破数据孤岛并提供跨生成性AI工作流的互操作性,企业可以将精力集中在创造价值上,而非解决基础设施问题。现实生活中的Clubhouse案例表明,企业正在利用Databricks的数据统一、AutoML、MosaicML模型训练、Lakehouse监控等组件来快速开发创新解决方案。结合专有数据和领先的人工智能技术,使得企业能够凭借独特的客户体验保持竞争力。

下面是一些演讲现场的精彩瞬间:

亚马逊云科技的Databricks AutoML提供了一种基于低代码的解决方案,使得用户能够轻松地训练和部署机器学习模型,同时保持完全的可视化。

在讨论中,领导者们分享了如何通过自然语言处理调用后端API以及从非结构化数据中提取信息并生成JSON文件的方法。

领导者们强调了利用亚马逊云科技服务,如GPT-4和Turbo,以加速迭代过程并构建更高效、性能更优越的ML管道的重要性。

此外,领导者们还强调了使用MLflow和LLM Ops等工具来追踪不同AI模型的不同版本并进行A/B测试,以便不断优化和改进其性能的重要性。

演讲者解释道,通过使用AI网关,可以更轻松地管理和监控多个AI终端,因为它是通往各种模型的中央路由点。

总结

The video discusses how to build and deploy generative AI applications using Databricks Lakehouse AI. It highlights the importance of leveraging one's own data as a competitive advantage when developing AI solutions. Databricks provides tools for preparing data for generative AI, including Vector Search for indexing documents for retrieval and Feature Serving for access to structured data. The process begins with retrieval enhancement and gradually transitions to model fine-tuning and pre-training as maturity increases. Fine-tuning can improve performance in specific domains, while pre-training allows complete control over the data source. MosaicML technology enables fast and inexpensive model training. To organize models, the MoFlow AI gateway acts as an intermediary, connecting your architecture to different AI providers. Lakehouse monitoring provides unified observability for both data and models. The speaker shared lessons learned from the actual deployment of generative AI at Square, emphasizing the need to treat solutions as versioned models and leverage the platform to manage spread. The key recommendation is to adopt an iterative approach, assess improvements from the baseline, and focus on cost reductions or performance improvements with each investment.

演讲原文

https://blog.csdn.net/just2gooo/article/details/134819908

想了解更多精彩完整内容吗?立即访问re:Invent 官网中文网站!

2023亚马逊云科技re:Invent全球大会 - 官方网站

点击此处,一键获取亚马逊云科技全球最新产品/服务资讯!

点击此处,一键获取亚马逊云科技中国区最新产品/服务资讯!

即刻注册亚马逊云科技账户,开启云端之旅!

【免费】亚马逊云科技“100 余种核心云服务产品免费试用”

【免费】亚马逊云科技中国区“40 余种核心云服务产品免费试用”

亚马逊云科技是谁?

亚马逊云科技(Amazon Web Services)是全球云计算的开创者和引领者,自 2006 年以来一直以不断创新、技术领先、服务丰富、应用广泛而享誉业界。亚马逊云科技可以支持几乎云上任意工作负载。亚马逊云科技目前提供超过 200 项全功能的服务,涵盖计算、存储、网络、数据库、数据分析、机器人、机器学习与人工智能、物联网、移动、安全、混合云、虚拟现实与增强现实、媒体,以及应用开发、部署与管理等方面;基础设施遍及 31 个地理区域的 99 个可用区,并计划新建 4 个区域和 12 个可用区。全球数百万客户,从初创公司、中小企业,到大型企业和政府机构都信赖亚马逊云科技,通过亚马逊云科技的服务强化其基础设施,提高敏捷性,降低成本,加快创新,提升竞争力,实现业务成长和成功。

  • 24
    点赞
  • 18
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

李白的朋友高适

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值