吴恩达:AI Agent 设计模式之工具使用

「吴恩达:AI Agent 工作流今年将有巨大进展,这是一个重要的趋势」中指出未来的一个重要趋势,AI Agent 工作流将在今年推动人工智能取得巨大进步,甚至可能超过下一代基础模型。 并呼吁所有从事人工智能工作的人都关注 AI Agent 工作流。并在文中介绍了 AI Agent 工作流的四种设计模式 :Reflection(反思)、Tool use(执行)、 Planning (规划)、Multi-agent collaboration(多智能体协作)。

Reflection(反思) 的核心思想是:AI Agent 工作流不是让大模型直接生成最终输出,而是多次提示 LLM,使其有机会逐步构建更高质量的输出。

今天继续介绍第二个设计模式:工具使用。

在大多数情况下,像 ChatGPT 这样的大语言模型是根据训练中的记忆进行操作的,因此它们与当前事件或所有 API、我们每天使用的自己的应用程序和网站无关。它不会连接到你公司的数据库和你公司的内部知识库等等。这使得 LLMs 的使用受到了限制。你可以使用LLMs 写一首诗,可以写一篇文章,可以从中得到一个很棒的笑话,可以搜索一些东西。但如何将语言模型与外部世界联系起来呢?如何增强人工智能的能力,让它来代表你执行行动,让它做比它固有能力更多的事情呢?

工具使用,其中 LLM 被赋予它可以请求调用以收集信息、采取行动或操作数据的功能,是 AI Agent 工作流的关键设计模式。相信之前可能了解或熟悉基于 LLM 的系统,这些系统可以执行网络搜索或执行代码。事实上,一些面向消费者的大型 LLMs 已经整合了这些功能。但工具的使用远远超出了这些例子。

如果向基于 LLM 的在线聊天系统提问“评论者认为最好的咖啡机是什么?”,它可能会决定进行网络搜索并下载一个或多个网页以获取上下文。早期,LLM 开发人员意识到仅依靠 pre-trained transformer 来生成输出 token 是有限制的,而为 LLM 提供网络搜索工具可以让它做更多事情。使用这样的工具,LLM 要么被微调,要么通过 Prompt(可能有几次Prompt)生成一个特殊的字符串,如 {tool: web-search, query: “coffeemaker comments”}请求调用搜索引擎。(字符串的确切格式取决于实现。)然后,后处理步骤会查找此类字符串,在找到字符串时使用相关参数调用 Web 搜索函数,并将结果传递回 LLM 作为进一步处理的附加输入上下文。

同样,如果你问,“如果我以 7% 的复利投资 100 美元 12 年,最后我会得到什么?”,不是尝试直接使用 transformer network 生成答案——这不太可能得到正确答案。LLM 可能会使用代码执行工具来运行 Python 命令来计算 100 * (1+0.07) * * 12 以获得正确答案。LLM 可能会生成如下字符串:{tool: python-interpreter, code: “100 * (1+0.07)* * 12”}。

但 AI Agent 工作流程中的工具使用现在更进一步。开发人员正在使用功能来搜索不同的来源(网络、维基百科、arXiv 等)、与生产力工具交互(发送电子邮件、读/写日历条目等)、生成或解释图像等等。我们可以使用给出许多函数详细描述的上下文来提示 LLM。这些描述可能包括函数功能的文本描述以及函数期望的参数的详细信息。我们希望 LLM 自动选择正确的函数来调用来完成工作。

此外,正在构建的系统中 LLM 可以访问数百种工具。在这种情况下,可以使用的函数可能太多,无法将所有函数都放入 LLM 上下文中,因此可以使用启发式方法来选择最相关的子集以包含在LLM 当前处理步骤的上下文。下面引用的 Gorilla 论文中描述的这项技术,如果要包含太多文本作为上下文,检索增强生成 (RAG) 系统如何提供启发式方法来选择要包含的文本子集。

在 LLMs 历史的早期,在 LLaVa、GPT-4V 和 Gemini 等大型多模态模型 (LMM) 广泛使用之前,LLMs 无法直接处理图像,因此很多关于工具使用的工作是由计算机视觉社区进行的。当时,基于 LLM 的系统操作图像的唯一方法是调用函数来执行对象识别或其他功能。从那时起,工具使用的实践呈爆炸式增长。GPT-4 的函数调用功能于去年年中发布,是迈向通用工具使用的重要一步。从那时起,越来越多的 LLMs 被开发出来,以同样方便工具的使用。

  • “MM-REACT:提示 ChatGPT 进行多模式推理和行动,”Yang 等人。(2023) (https://arxiv.org/pdf/2303.11381.pdf)

  • “通过抽象链推理实现高效工具的使用”,Gao 等人。(2024) (https://arxiv.org/pdf/2401.17464.pdf)

读者福利:如果大家对大模型感兴趣,这套大模型学习资料一定对你有用

对于0基础小白入门:

如果你是零基础小白,想快速入门大模型是可以考虑的。

一方面是学习时间相对较短,学习内容更全面更集中。
二方面是可以根据这些资料规划好学习计划和方向。

包括:大模型学习线路汇总、学习阶段,大模型实战案例,大模型学习视频,人工智能、机器学习、大模型书籍PDF。带你从零基础系统性的学好大模型!

😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓

👉AI大模型学习路线汇总👈

大模型学习路线图,整体分为7个大的阶段:(全套教程文末领取哈)

第一阶段: 从大模型系统设计入手,讲解大模型的主要方法;

第二阶段: 在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用;

第三阶段: 大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统;

第四阶段: 大模型知识库应用开发以LangChain框架为例,构建物流行业咨询智能问答系统;

第五阶段: 大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型;

第六阶段: 以SD多模态大模型为主,搭建了文生图小程序案例;

第七阶段: 以大模型平台应用与开发为主,通过星火大模型,文心大模型等成熟大模型构建大模型行业应用。

👉大模型实战案例👈

光学理论是没用的,要学会跟着一起做,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。

在这里插入图片描述

👉大模型视频和PDF合集👈

观看零基础学习书籍和视频,看书籍和视频学习是最快捷也是最有效果的方式,跟着视频中老师的思路,从基础到深入,还是很容易入门的。
在这里插入图片描述
在这里插入图片描述

👉学会后的收获:👈

• 基于大模型全栈工程实现(前端、后端、产品经理、设计、数据分析等),通过这门课可获得不同能力;

• 能够利用大模型解决相关实际项目需求: 大数据时代,越来越多的企业和机构需要处理海量数据,利用大模型技术可以更好地处理这些数据,提高数据分析和决策的准确性。因此,掌握大模型应用开发技能,可以让程序员更好地应对实际项目需求;

• 基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握;

• 能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习框架等技术,这些技术的掌握可以提高程序员的编码能力和分析能力,让程序员更加熟练地编写高质量的代码。

👉获取方式:

😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值