吴恩达演讲视频:利用AI代理构建自主工作流,让我们工作更加轻松高效

在 Snowflake 2024 峰会的 Dev Day 上,Landing AI 创始人兼 CEO 吴恩达教授进行了关于 AI 代理工作流程的演讲,并探讨了这些流程如何能比下一代基础模型带来更多的 AI 进展。他描述了主要的代理工作流程设计模式,例如反思、工具使用、规划和多代理协作,并解释了这些模式为何是开发基于大型语言模型应用的强大工具。Snowflake CEO Sridhar Ramaswamy 提供了开场致辞。

00:00 – Snowflake CEO Sridhar Ramaswamy 的开场致辞

06:09 – Sridhar 与 Landing AI 创始人兼 CEO Andrew Ng 的对话

13:38 – 吴恩达教授的演讲

吴恩达教授的演讲文稿

大家好,这是一场开发者会议,我想借此机会与大家分享一些关于人工智能代理的内容,我对此非常兴奋,而且我将分享一些之前从未展示过的新内容。大家知道什么是人工智能代理吗?我们很多人已经习惯于使用大型语言模型进行零样本提示,这就像你让它写一篇文章或者对某个提示进行回应,类似于你让一个人从头到尾一气呵成地写一篇文章,不用回退键。虽然这种写作方式很难,我自己都做不到,但这些模型却能做得相当不错。

相比之下,代理工作流持续迭代。你可能会让一个模型先写一篇文章提纲,然后问它是否需要进行网络搜索,如果需要,就去搜索获取信息,然后写第一稿,再读一下看看能否改进,然后修改稿子。使用代理工作流的过程更像这样,算法进行一些思考和研究,然后修改,再思考,这种迭代循环会产生更好的结果。

如果你考虑使用代理来编写代码,目前我们倾向于提示语言模型直接编写代码,这就像让一个开发者从头到尾敲出程序并运行。这种方式效果不错,但代理工作流能使其效果更好。我的团队收集了一些基于一个叫 HumanEval 的编码基准的数据。HumanEval 是几年前 OpenAI 发布的一个基准,提供类似的编码难题:给一个非空列表,返回其和。结果显示,GPT-3.5 在这个基准测试中的通过率是 48%,采用零样本提示直接写出代码。而 GPT-4 表现更好,准确率达到 67%。但如果你将 GPT-3.5 包装在一个代理工作流中,它的表现会更好,GPT-4 在这种情况下也表现优异。

我希望你们能意识到,虽然从 GPT-3.5 到 GPT-4 的提升很大,但使用代理工作流带来的提升更大。对于所有正在构建应用程序的人来说,这也许表明了代理工作流的巨大潜力。我在 Landing AI 的团队正在研究视觉 AI,我想分享一些最新的内容,之前从未展示过的东西。几天前我们刚将其开源,这是关于构建一个视觉代理。

这个项目的负责人Dylan Laird是一位冲浪爱好者,经常看鲨鱼视频。这是一段鲨鱼视频,显示冲浪者在周围游荡。Dylan对视频中鲨鱼与冲浪者的距离感兴趣。生成的视频显示鲨鱼距离冲浪者 6.07 米、7.2 米、9.4 米的情况,当鲨鱼游得足够远时,我们将颜色从红色变为绿色,表示冲浪者距离鲨鱼超过 10 米。如果你要编写代码实现这个功能,需要运行目标检测、测量、找到边界框、绘制图像,虽然可以做到,但很麻烦,可能需要几个小时编写代码。我想展示我们如何构建这个视频:我们编写了一个提示:“检测冲浪板和鲨鱼的距离,在视频中画绿线,假设 30 像素为一米,标记红线”等。这是给视觉代理的指令。给出提示后,语言模型生成了一系列步骤说明,提取帧并进行处理。

所以,这是执行任务的一系列步骤,然后是检索工具,工具指的是函数调用。例如,像 save video 这样的实用函数可以保存列表,我们会检索关于 save video 工具的详细描述,以及用于测量鲨鱼和冲浪者之间距离的工具 closest box distance。基于这些,我们可以自动生成代码,当运行这些代码时,就会生成你刚刚看到的视频。

接下来,我想深入探讨一下这一过程是如何运作的。我们让视觉代理按如下方式工作:输入一个提示,这是一个比刚才使用的提示稍微简单一些,但目的是计算鲨鱼和最近的冲浪板之间的距离。我们的视觉代理的目标是编写执行你所提示任务的代码,这样你可以输入一张图像,让它生成预期结果。我们发现,类似于编写非图像代码的代理工作流,这种方法比零样本提示效果更好,适用于很多应用场景。

此外,我们还发现,对于大量图像用户来说,例如在 Snowflake 中有 10 万张图像,拥有一段可以高效处理大量图像的代码非常重要。一旦你有了这段代码,就可以将大量图像或视频帧通过这段高效代码处理并获取结果。我想与大家分享我们视觉代理的工作原理,这个项目是开源的,希望大家查看并给我们反馈,也许还能帮助我们改进。

视觉代理由两个代理组成:编码代理和特斯拉代理。以这样的提示为例,编码代理首先运行一个规划器,列出完成任务所需的步骤,比如加载图像、使用工具检测对象、计算距离等,然后检索每个工具的详细描述(工具即函数),最后生成代码。

我不知道这些内容看起来是否有些神奇,但所有的代码都在 GitHub 上,大家可以看看具体的提示。当你第一次看到这些代码和提示时,可能会觉得有些不可思议,但仔细看看代码和提示,你可能会感到惊讶。现在给大家展示一些演示。这是一个检测每个人的提示,生成的结果是一个 Python 字典,这里有一段代码,这个 Python 字典显示八个人戴了口罩,两个人没有戴口罩。这里是另一个提示,用于生成一个可视化的图表,显示检测结果。

这是一段新生成的自动化代码,实际上我漏掉了未戴口罩的人,目标检测功能找到了未戴口罩的人。再给一个例子,这个有点有趣,分析视频每两秒钟分类一次,是否发生车祸,输出 JSON 格式,显示是否有车祸。所以车祸视频总是很吸引人……我不认为有人受伤,但这是第 16 个视频,马上就会看到车祸,幸运的是没有人受伤。我想,如果你这样做,这里的代码在右边,它处理视频并输出 JSON 格式,显示在这个时间戳没有车祸,在这个时间戳有车祸。

我听到很多反馈来自我的内部团队和一些用户,他们说是的,我可以自己写代码,但这会花费我几个小时,现在你可以快速完成这些任务。在计算机视觉领域,我们使用很多不同的函数,老实说,我从来记不住该用哪些函数,语法是什么,这确实使构建视觉 AI 应用程序的过程变得更容易。

我还想分享另一件能提高性能的事情,就是使用特斯拉代理。我刚刚展示了编码代理,你可以提示语言模型编写一些测试代码,然后基于这些测试代码执行测试。现在我们的测试代码通常是类型检查,虽然有些局限,但即便如此,我们仍可以执行测试代码,如果测试代码失败,将输出反馈给编码代理,让它反思并重写代码,这可以进一步提升性能。

在学术文献方面,我们主要依靠两篇研究论文,一篇是 Hang 等人的代理编码器论文,另一篇是 Hong 等人的数据解释器论文。如果你想了解更多关于这些技术的内容,可以看看这些论文。

最后再展示一个演示,这是每两秒检测一次视频的关键技术。这实际上是用于 CCTV 视频,特斯拉代理将其拼接成一个视频,通常人们希望突出显示有趣的部分。提示词很长,包含 YouTube 链接,它创建了像这样的指令,检索工具,结果是代码无法正常工作。

代码有时候会出错,这里给大家展示一个例子,代码实际运行时失败了几次。第一次运行时出现了索引错误,我们将所有这些错误信息反馈给语言模型。第二次还是失败了,第三次也失败了,第三次失败是因为没有名为 p tube 的模块。最后,我们通过 pip install pytube 修复了这个问题,代码成功运行了,结果是在 CCTV 聚合视频中高亮显示的部分,提示你在哪个视频中超过 10 辆车,你应该查看那个视频。

因此,我对代理 AI 在许多应用中的前景感到非常兴奋,包括编码和视觉方面。我们一直在研究的视觉代理也有一些局限性。在我们的实验中,很多情况下都会失败,最常见的问题之一是通用对象检测系统 grounding Dino 有时无法检测到物体。例如,这里漏掉了一些黄色番茄,这是一个常见的失败之一。我对 Landing AI 与 Snowflake 的合作感到非常兴奋,我们最近构建了 Landing Lens,这是一个监督学习的计算机视觉系统,作为 Snowflake 的原生应用程序。我认为,通过监督学习,我们能够减轻一些错误。然而,它不擅长复杂的推理。例如,如果你说每只鸟重半公斤,栅栏上的总重量是多少,这个系统会天真地检测到所有鸟,但不会意识到有一只鸟在飞,不会给栅栏增加重量。不过,如果你修改提示为忽略飞行的鸟,它实际上会正确地处理。

我觉得我们今天发布的 Vision Agent 仍处于测试阶段,有时能工作,有时不能工作,对提示的措辞有些敏感,有时你需要更具体地调整提示,详细说明步骤。因此,我不会说这是一个完美的、惊人的软件,但当它能正常工作时,我对结果感到非常惊喜和满意。

哦,我还想提一下,大家,站起来吧,今天在场的就是打造视觉代理团队的成员,Dylan是中间的冲浪者,还有 Shanka。希望你们能找到他们,无论是在这里还是在 Landing AI 展台,都能更多了解这个项目,这个项目也在网上发布,网址是 va.landing.ai,核心引擎也已开源。我觉得 AI 代理是一个非常重要且令人兴奋的趋势,我们正在做一些小小的贡献,希望能帮助大家。我希望我们能一起改进代理,这将显著提升我们作为开发者的能力。

那么,我要说,非常感谢大家,谢谢。有人告诉我,我们还有几分钟时间,哦,我想 Lucas 和 Weights and Biases 的成员会来,我想我们有几分钟时间进行问答。如果大家有问题,可以快速提问,然后我会下台,这样你们就可以听 Weights and Biases 的发言了。

非常感谢你给我们提供了一个非常具体的例子来解释工作流程,非常感激。吴教授,我有一个关于代理 AI 的简短问题,除了视觉代理之外,你认为代理还能应用于其他领域吗?这是第一个问题。第二个问题,你认为代理只是某种专门的 AI,还是说它是一个更通用的 AI,像语言模型或其他模型一样?谢谢。

谢谢你。嗯,我看到 AI 代理正被用于许多不同的应用中,我觉得你们中的一些人可能在社交媒体上看到过 DevOps 引起的轰动,虽然关于那个声明的性质有一些讨论,但这个开源的 DevOps 是一个开源的编码代理,还有很多关于编码代理的研究。

我看到一些团队在进行法律工作,例如,使用 AI 代理分析复杂的法律文件。我认为,AI 研究代理可以上网进行网络搜索,综合大量信息并撰写有深度的研究文档,这种应用真的越来越普及。我经常使用一些代理平台,比如 Cre AI、Autogen,有时是 Land Draft,很多人在这些框架上构建了许多应用程序。目前,许多代理往往是为特定目的而构建的,但如果能有一个非常通用的代理,那将是很有趣的。

对于很多代理来说,我们刚刚跨过了从玩具到实用的门槛。例如,AI 研究代理,能够上网进行搜索并为你写一篇研究论文。

大约三个月前,这种技术还只是很好玩的东西,但就在过去几个月,我的朋友,斯坦福大学的 Monica Lamb,她的团队发布了一个开源软件 Storm,我觉得,现在这种技术真的开始变得有用了。因此,我认为在过去的几个月里,我看到很多这些应用程序从有趣的玩具变得实际上非常有用。

如何学习大模型 AI ?

由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。

但是具体到个人,只能说是:

“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。

这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述

第一阶段(10天):初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。

  • 大模型 AI 能干什么?
  • 大模型是怎样获得「智能」的?
  • 用好 AI 的核心心法
  • 大模型应用业务架构
  • 大模型应用技术架构
  • 代码示例:向 GPT-3.5 灌入新知识
  • 提示工程的意义和核心思想
  • Prompt 典型构成
  • 指令调优方法论
  • 思维链和思维树
  • Prompt 攻击和防范

第二阶段(30天):高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。

  • 为什么要做 RAG
  • 搭建一个简单的 ChatPDF
  • 检索的基础概念
  • 什么是向量表示(Embeddings)
  • 向量数据库与向量检索
  • 基于向量检索的 RAG
  • 搭建 RAG 系统的扩展知识
  • 混合检索与 RAG-Fusion 简介
  • 向量模型本地部署

第三阶段(30天):模型训练

恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。

到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?

  • 为什么要做 RAG
  • 什么是模型
  • 什么是模型训练
  • 求解器 & 损失函数简介
  • 小实验2:手写一个简单的神经网络并训练它
  • 什么是训练/预训练/微调/轻量化微调
  • Transformer结构简介
  • 轻量化微调
  • 实验数据集的构建

第四阶段(20天):商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。

  • 硬件选型
  • 带你了解全球大模型
  • 使用国产大模型服务
  • 搭建 OpenAI 代理
  • 热身:基于阿里云 PAI 部署 Stable Diffusion
  • 在本地计算机运行大模型
  • 大模型的私有化部署
  • 基于 vLLM 部署大模型
  • 案例:如何优雅地在阿里云私有部署开源大模型
  • 部署一套开源 LLM 项目
  • 内容安全
  • 互联网信息服务算法备案

学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。

如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

在这里插入图片描述

  • 22
    点赞
  • 26
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值