作者:猥琐发育的
公众号:【DarkMythAI】
迈向下一代AI代理的关键演化
近年,AI技术的发展已经逐渐从“模型巨大化”的趋势转向更为模块化、可操作化的智能代理。尤其是在构建能够自主行动的AI代理方面,学界和产业界正在逐步形成对新一代AI代理的基础架构原则的共识。这些智能代理不仅仅是高级模型,它们代表了一种全新的运作方式——从简单生成语言,到自主行动,再到与数字环境的无缝互动。
那么,究竟什么是AI代理(AI Agents)?AI代理可以理解为一种系统,旨在自动化或半自动化地完成任务,这些任务可能从简单的日程安排到复杂的数字环境探索不等。当前,有大量研究探讨了AI代理的未来,但这些代理的设计和开发实际上基于一些切实可行的架构和技术,这些架构成为了这些AI代理得以自主适应、动态行动的基础。
大型动作模型(LAMs):AI代理的新骨干
对于智能代理的自主能力,语言模型是不可或缺的基础。但仅仅理解和生成语言还不够,因此,“大型动作模型”(Large Action Models,LAMs)应运而生。LAMs与大型语言模型(LLMs)类似,都是大规模训练的AI模型,但不同之处在于,它们不仅是为了生成语言,而是为了执行特定的操作和实现功能。比如,通过函数调用,LAMs可以直接触发外部程序、执行API请求或进行数据库查询,这些都显著提升了AI代理的可操作性。
Salesforce等公司已经开源了一些LAMs,其中包括适合入门级使用的小型动作模型。这些模型不仅限于文本生成,还包括如何在真实场景中做出实际行动——无论是计划任务,还是执行复杂的多步骤过程。
模型编排与小型语言模型(SLMs)的协作
在AI代理的架构中,模型的协同工作尤为重要。这并不仅是依赖一个大型的模型,而是通过模型编排(Model Orchestration)来将多个小型语言模型(SLMs)结合在一起。相比LLMs这种庞大而通用的模型,SLMs更专注于特定任务或功能,如数据摘要、命令解析或者历史上下文分析。这种模块化设计使得AI代理能够更加高效地处理特定类型的任务,同时节省计算资源。
比如,一个用于客户服务的AI代理可能包含一个擅长自然语言理解的小型模型,另一个专注于检索数据库的模型,还有一个模型可以用来处理用户的个性化需求。通过对这些模型的编排,AI代理可以像“拼装玩具”一样灵活应对各种场景,既避免了大模型高昂的计算成本,也提高了处理特定任务的精准度。
视觉语言模型与数字探索
随着AI代理逐渐具备在数字环境中探索和互动的能力,视觉与语言的结合变得至关重要。苹果的Ferret-UI和WebVoyager就是这方面的典型项目,它们展示了AI代理如何在数字环境中导航,比如通过OCR(光学字符识别)识别UI元素,并将这些元素映射到特定的操作上。
设想一下,当一个AI代理被赋予在新环境中设置应用程序的任务时,它不仅要读取文本说明,还要识别界面中的元素,例如按钮、输入框等,并能据此采取后续行动。这不仅让AI代理在执行任务时更加高效,也使其具备了一定的自主决策能力。
函数调用:从语言生成到可操作输出
传统的大型语言模型(LLMs)主要处理的是非结构化的输入和生成非结构化的输出,如文本回答或对话片段。然而,随着函数调用技术的发展,AI代理现在可以生成结构化的、可操作的输出。例如,AI代理可以根据用户请求触发特定的函数来预约会议、发送请求、或触发API调用,这些操作不仅减少了处理非结构化响应的开销,也使得系统之间的交互更加顺畅。
一个典型的例子是通过OpenAI API进行的函数调用。通过这种方式,AI代理可以直接从模型的输出中提取参数,以此来触发外部功能。这种模式使得AI代理不仅仅是一个生成内容的工具,它还真正成为了数字生态系统中的活跃部分。
工具的作用:管道与人类的参与
在AI代理的体系结构中,工具(tools)是一个核心概念。工具是AI代理与外部世界交互的媒介,无论是获取数据、进行计算,还是执行某些任务。这些工具有时候可以是一个API调用或一个脚本,也可以是人类的参与。例如,在一些高风险的应用场景中,AI代理的操作可能需要人类的介入进行验证,这就是所谓的“人类在环”(human-in-the-loop)设计。这样的设计确保了AI代理的输出在关键节点的准确性和可靠性。
AI代理的未来:自适应、协作和智能的新时代
随着这些基础技术的逐渐成熟,AI代理正在变得比我们想象的更加复杂和强大。从大型动作模型到视觉语言的整合,再到函数调用的普及,AI代理已经不再只是静态的工具,它们是可以主动探索、学习并与环境互动的系统。
我们正在为AI代理设定新的基础,致力于让它们变得更加智能、自适应、高效,并逐渐具备人类问题解决和思维过程的特征。正如Cobus Greyling所言,这些架构中的每一个构件都在为智能代理的新纪元铺平道路,而这个时代的到来将使得人工智能不仅仅是工具,而是我们日常生活中不可或缺的智慧伙伴。