2024年4月3日_解读红杉资本AI峰会吴恩达的智能体演讲


今天还是介绍 红杉资本AI峰会

image-20240504010525729

我已经分享过了红杉合伙人AI发展机遇的判断

以及安德烈卡帕西AI现状的分析

今天分享的是吴恩达教授在这次峰会上

智能体工作流的分享

吴恩达教授我也不多介绍了

应该说桃李满天下

image-20240504010544969

很多人可能都听过他的公开课程

在这次演讲中

他谈到了AI agentic workflow

也就是智能体工作流的迭代模式

以及基于人工评估基准测试效果分析

还谈到了自己对于AI智能体设计模式四种分类

包括反思工具使用规划多智能体协作

image-20240504010559696


与此同时

吴恩达还分享了它对AI智能体未来发展潜力的展望

在他看来,通过智能体工作流

人工智能能够胜任的任务种类

今年将会得到大幅的扩展


此外,快速token生成也很重要

即使使用质量略低、但是速度更快语言模型

通过更多轮的迭代

也可能比使用更高质量、但是速度较慢的模型

获得更好的结果


吴恩达的这次分享时间不长

但是信息密度很高

接下来就来了解一下具体的分享内容


提前说明一下

吴恩达重要幻灯片的底部都加了一些可以参考的资料

方便大家延伸阅读

不得不说非常贴心

image-20240504010637153


使用大语言模型的方式

首先,吴恩达提出

目前我们使用大语言模型主要方式

是一种非智能体工作流程

也就是我们输入一个提示

模型就生成一个回答

这有点像让一个人坐到电脑前

一次性从头到尾写一篇文章

但是中间不允许使用退格键

尽管这样做起来很难

但是大语言模型还是做得非常好

image-20240504010722621

相比之下

智能体工作流程看起来是右边这样

首先,让AI大模型写一个文章大纲

如果需要上网查资料就先联网

然后写初稿读初稿

思考哪些部分需要修改

然后再修改这篇初稿,再读再修改

如此循环往复迭代多次

很多人都没有意识到的是

这么做的效果会好得多

吴恩达自己也时常惊讶于智能体工作流的出色效果

他的团队通过使用OpenAI发布的HumanEval编程评估基准

image-20240504010738611

智能体工作流做了一些数据分析

对于一些编程题

比如给定一个非空整数列表

返回位于偶数位置的所有奇数元素的和

image-20240504010747405

AI会生成像这样代码片段

我们很多人会直接使用零样本提示

也就是直接让大模型编写代码

但是实际上没有人是这样写代码的

事实证明

image-20240504010800936

GPT-3.5零样本提示的条件下

准确率只有48%

GPT-4能达到67%

但是如果使用智能体工作流

GPT-3.5实际上能表现更好

甚至超过GPT-4

如果在GPT-4上使用智能体工作流

GPT-4也能表现很好

吴恩达注意到,这是一个信号

但是因为现在围绕智能体的讨论非常多

难免混乱,所以他接下来介绍了一下

自己总结的智能体的四种设计模式

智能体的四种设计模式

image-20240504010821570

分别是1、Reflection

也称为反思或者自省

就是让智能体审视修正自己生成的输出

2、Tool Use使用工具

也就是让大语言模型进行生成代码调用API实际的操作

3、Planning规划

也就是让智能体能够分解复杂的任务

并且按照规划执行

4、Multiagent Collaboration

多智能体协作

也就是多个智能体扮演不同角色

合作完成任务


Reflection现在很多人都在使用

也很有效

虽然Tool use得到了更广泛的认可

但是reflection实际上效果也很好

规划多智能体协作

属于正在兴起的技术

虽然有时候效果令人感到震惊

但是目前还不是很稳定

接下来

吴恩达详细解释了这四种设计模式

第一种模式:reflection

首先是reflection,举个例子

假设我们让一个系统编写一个指定任务的代码

image-20240504010854987

然后我们有一个编码智能体

它只是一个接受提示的大模型

会写一些像do_task这样的函数

那么self reflection的情况就是

image-20240504010905929

我们让大模型写出这样的提示

告诉它这是用来执行某个任务的代码

然后把刚刚生成的代码给它

让它检查这段代码的正确性效率等等类似的问题

结果我们会发现

根据提示写出代码的那个大模型

可能能够发现代码里的问题

比如第五行的bug

还会告诉你怎么修改

如果我们现在采纳了它的反馈并再次给它提示

它可能会提出一个

比第一版更好的第二版代码

虽然不能保证结果一定一样

但是这种方式无疑是有效的

在很多应用中都值得去尝试一样


比方说

如果我们让模型运行单元测试

但是没有通过

我们想知道为什么没通过

那么通过这样的对话也许就能够找出原因

然后吴恩达提前提了一下多智能体系统

实际指的是多个单独的智能体

给它提示

让它们互相进行对话

放在编程的场景中

就是有两个智能体

image-20240504010941580

其中一个是编写代码的智能体

另一个是评价代码的智能体

它们背后的大模型可能是同一个

但是给它们的提示是不一样的

比如我们对其中一个说

你是写代码的专家

负责编写代码

对另一个说,

你是审核代码的专家

负责审核这段代码

这种工作流实际上很容易实现

而且应用场景很广

能够为大语言模型的性能带来显著的提升

第二种模式:tool use

第二种设计模式是tool use

也就是使用工具

许多人可能已经见过基于大模型的系统使用工具

image-20240504011002164

比方说,左边的截图来自于Copilot

右边的截图来自于GPT-4

左边的问题是

网上最好的咖啡机是哪个?

Copilot会通过上网检索来解决一些问题

GPT-4生成并且运行代码

事实证明

人们已经使用了很多不同的工具

来进行分析、收集信息、采取行动和提高个人生产力


很多早期与tool use有关的工作

都是在计算机视觉领域

因为之前

大语言模型对图像无能为力

所以唯一的选择就是让大模型生成一个函数调用

用来操作图像

image-20240504011024153

比如生成图像或者做目标检测什么的

逐渐才诞生了GPT-4VLLaVA等模型

image-20240504011030516

应该说

tool use扩展了大语言模型的能力

第三种模式:planning

接下来是第三种设计模式,planning

规划

对于没有大量接触过规划算法的人来说

在见到ChatGPT的时候

会觉得,哇

从来没有见过这样的东西

他们看到AI智能体的时候也会很惊讶

从来没有想到AI智能体能做到这些

吴恩达实际已经经历了很多这样的时刻

image-20240504011048047

其中一个例子改编自HuggingGPT的论文

输入的提示是

请生成一张图像,一个女孩在看书

她的姿态和图像中的男孩一样

然后用语音重新描述这张新图像

AI智能体工作流

可以确定第一件要做的事

就是确定男孩的姿态

然后在HuggingFace上找到合适的模型

提取出姿态

接下来找到一个姿态图像的模型

遵循指令生成一张女孩的图像

然后再使用图像转文本模型得到描述

最后使用文本转语音模型读出描述

对于这种AI智能体工作流

吴恩达自己也说

有时候并不总是好用

但是起作用的时候

实际效果非常惊人

智能体循环能够帮助我们解决很多早期存在的问题

吴恩达现在在自己的工作中

也会把一些需求发给AI智能体

几分钟后回来看看它做了什么

有时有效,有时不行

但是这已经成为了吴恩达个人工作的一种习惯了

第四种模式: Agents

image-20240504011121758

最后一个设计模式是多智能体协作

它的效果比我们想象的要好得多

左边这张图来自一篇名为ChatDev的论文

它是完全开源

之前也流传过关于AI程序员Devin的演示

相信很多人也都看过

ChatDev可以笔记本电脑上运行

它是一个多智能体系统

我们可以让它有时扮演软件公司的CEO

有时扮演设计师

有时是产品经理,有时又是测试人员

这些智能体都是通过提示告诉大模型的

比如告诉它们

你现在是CEO

或者你现在是软件工程师

他们就会协作,

会进一步的对话

如果你告诉它们,请开发一款游戏

它们就会花几分钟写代码

然后进行测试、迭代

然后生成一个令人惊讶的复杂程序

虽然并不总是能运行

但是有时候又很惊艳

这种多智能体的合作听起来可能有些奇特

但是实际上效果可能比想象的要好

这不仅仅是因为这些智能体之间的合作

能够带来更加丰富多样的输入

而且因为它能够模拟出一个

更加接近真实工作环境场景

其中不同角色和专业知识的人员为了共同的目标而努力

这种方式的强大之处在于它能够让大语言模型不仅仅是执行单一任务的工具

而是成为一个能够处理复杂问题和工作流程协作系统

此外,事实证明

多智能体辩论实际上会带来更好的性能

比如说

我们可以让ChatGPT谷歌的Gemini进行辩论

image-20240504011205948

因此

多个相似的AI智能体一起工作

也是一个强大的设计模式

image-20240504011219017

最后,吴恩达做了下总结

得益于智能体工作流

今年AI能做的事情将大幅扩展

四个智能体的设计模式也会变得非常关键

我们人类在输入提示之后

总想立即得到结果

这是人性使然

我们喜欢即时获取即时反馈

但是对于AI智能体工作流来说

我们需要学会把任务分配AI智能体

然后耐心地等待几分钟

甚至几小时,等它给出回应

这就好比很多新升上来的管理者

把某件事情委托给某人之后

总是不放心

几乎每隔五分钟后就要去检查一下

这并不是一种有效的工作方式

所以我们也需要对AI智能体多点耐心

另一个重要的事情是

快速的token生成非常重要

因为这些AI智能体是在一遍又一遍地迭代着

AI生成token的速度

应该比任何人的阅读速度都快

而且

即使用质量稍低的大模型快速生成更多的token

也比用更好的大模型慢慢生成token要好

因为它可能让智能体循环更多次

同时吴恩达认为,在GPT-5出来之前

智能体工作流能带来接近于GPT-5的效果


最后的最后

吴恩达升华了一下分享的主题

他说道,通往人工通用智能的道路

宛如一场旅程非终点

但是我相信

智能体能帮助我们在这条漫长征途上

迈出微小而坚实的一步

  • 22
    点赞
  • 30
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值