HuggingGPT论文解析

wcx881212

已于 2023-10-20 12:08:37 修改

阅读量115

点赞数

文章标签： chatgpt 语言模型人工智能自然语言处理算法

于 2023-10-19 16:01:29 首次发布

本文链接：https://blog.csdn.net/wcxSunnywcx/article/details/133928809

版权

基本思想：利用ChatGPT的语言理解、生成、交互、推理能力，作为一个管理者连接、管理和请求社区的专家模型，可根据用户的需求实现超出本身ChatGPT的功能，如能完成：目标检测、文本分类、语义分割等多模态任务，同时增强了结果为易懂的句子。

基本流程：

任务计划：通过prompt，拆分用户输入的句子为多个简单的任务，每个任务包含：任务类别、任务id、依赖的任务id、输入参数。LLM需合理拆分出全部最简任务并推理出其间的依赖关系。因此，LLM的性能将决定整个流程的结果是否成功
模型选择：通过prompt将候选模型（模型id+模型描述）输入LLM中，LLM将根据每个任务的需要选择对应模型。考虑到最大上下文长度限制，候选模型首先根据其在对应领域中的排名筛选出前K个模型。
任务执行：若某任务有依赖的前序任务，则将依赖的任务输出以参数形式放入。同时对于无依赖的工作，则并行执行提供效率。作者还提出了一种混和推理断点部署模型，即当本地部署了某专家模型时则优先使用否则在云端进行推理，能很好保持系统稳定性和效率
回应输出：通过prompt，LLM将每个专家模型的结果汇总，输出执行过程和最后结果

试验：

LLM的任务计划是整个流程是否成功的关键，作者对Alpaca-7b、Vicuna-7b、GPT-3.5在任务计划上（包含单一任务、链式任务、图式任务）进行测试。对于单一任务主要评估task name和真值是否对应，链式任务还需额外评估和真值的edit distance即任务之间是否出现关系混乱、缺失或者增加额外的任务，图式任务额外通过prompt使用GPT4打分。
作者还构建了一个人工标注的任务计划数据集和一个GPT4标注的数据集

局限：

任务计划是HuggingGPT的重要环节直接决定最终成功与否，但任务计划能力严重依赖于LLM的性能（可微调一个任务计划模型或者使用人工算法严格推理出任务，反映了在推理方面LLM不能完全胜任）
在整个流程中，LLM作为控制器会影响效率（其中的某些环节可考虑用人工算法替代，最后结果输出环节换上LLM）
最大输入限制，导致了候选模型的个数受限
LLM的不稳定性导致了整个系统的稳定性受限（仍可考虑某些重要环节由人工算法替代）
agent的通病，或者说是“语言即连接LLM的接口”的范式通病，即其性能严重依赖于prompt。