本文来源公众号“集智书童”,仅用于学术分享,侵权删,干货满满。
原文链接:上海 AI Lab 提出 GenAgent | 使用自动工作流程生成构建协作AI 系统-ComfyUl 上的案例研究 !
许多以前的 AI 研究侧重于开发单模型以最大化其智能和能力,主要目标是提高特定任务上的性能。相比之下,本文探索了另一种方法:使用工作流来整合模型、数据来源和 Pipeline 以解决复杂和多样化的任务。
作者引入了 GenAgent,这是一种基于 LLM 的框架,可自动生成复杂的工作流,与单模型相比具有更大的灵活性和可扩展性。
GenAgent 的核心创新在于同时表示工作流代码和逐步构建协作代理的工作流程。
作者在 ComfyUI 平台上实现 GenAgent,并提出了一个新的基准测试 OpenComfy。
结果表明,在运行级和任务级评估中,GenAgent 都优于 Baseline 方法,展示出其生成复杂工作流的卓越效果和稳定性。
该工作的项目页面位于 https://xyqwq.github.io/GenAgent。
Introduction
近期AI的发展被日益重要的协作AI系统的成功所定义,这些系统整合了多种模型和工具作为整体协作系统。ChatGPT Plus(OpenAI,2024年)的成功表明将诸如网页浏览、图像生成和代码执行等任务集成到一个单一的聊天代理的可能性。与传统AI模型作为单一实体的不同,协作AI系统整合多个AI组件,每个组件贡献独特的能力来解决复杂问题。向整合方向的转变对于实现最先进的结果至关重要,因为整合了多样AI功能的优势在一个统一框架内。
不幸的是,协作系统的架构和优化通常需要大量的人力专业知识。例如,各种协作系统采取了不同的方法:AlphaCode 2(AlphaCode团队,2024年)为代码问题生成高达100万个解决方案,然后过滤和评分。AlphaGeometry 通过语言模型迭代建议几何问题中的构造,并检查符号引擎产生的推导事实。尽管ComfyUI(2023年)设计得易于使用,但仍需要用户对各种生成模型组件的原理有一定的了解,以及精心设计工作流程。
这引导出了一个关键的问题:作者能否开发一个类似于人类专家的智能代理,能够自主设计协作AI系统?
在本文中,作者将协作AI系统的自动化设计定义为自动工作流设计问题,如图1所示。一个工作流代表了一个协作AI系统的抽象高级概念。这些 Pipeline 是通过将AI相关的组件(例如AI模型、检索器和解外部工具)系统化地组织为分析数据、执行任务或提供输出的过程来构建的。
然而,协作AI系统的自动化设计工作流程面临着重大的挑战。首先,当前的工作流表示,如JSON或CoRE(Li等人,2024年),对于LLM代理来说,无法完全理解协作系统内的内在逻辑和依赖关系。其次,合理组织 Pipeline 并有效利用AI相关模块需要大量的专家知识和复杂的认知过程。仅依赖基本的提示策略,如连锁思维提示(CoT)( Wei等人,2022年)或检索增强生成(RAG)( Lewis等人,2020年),往往无法生成复杂的工作流程。
为了解决上述问题,作者引入了GenAgent,这是一个使LLM代理能够通过编写工作流代码来自主设计协作AI系统的全新框架。GenAgent的核心概念有两个方面:首先,将工作流程表示为代码,可以通过解释器可逆地转换为工作流程并作为协作系统执行。其次,构建一个多智能体系统,该系统协作学习现有工作流程并为一给定任务生成新工作流程。多智能体系统的核心是PlanAgent,负责根据任务指示全局计划工作流程。在收集所有组件的文档描述和收集的工作流程的代码示例后,RetrievalAgent将自动检索并学习有关给定任务所需关键信息的关键信息。CombineAgent和AdaptAgent逐渐编写代码构造可以满足指定任务的新工作流程。在任务完成时,PlanAgent执行完成动作来组织最终的工作流程。
作者在ComfyUI(ComfyUI,2023年)平台上实现了和测试了GenAgent框架。通过在ComfyUI中设计工作流并执行它们,GenAgent能够以高成功率灵活地完成各种生成任务。相比之下,常见的方法如