HuggingGPT论文解析

HuggingGPT论文阅读

基本思想:利用ChatGPT的语言理解、生成、交互、推理能力,作为一个管理者连接、管理和请求社区的专家模型,可根据用户的需求实现超出本身ChatGPT的功能,如能完成:目标检测、文本分类、语义分割等多模态任务,同时增强了结果为易懂的句子。

基本流程:

  1. 任务计划:通过prompt,拆分用户输入的句子为多个简单的任务,每个任务包含:任务类别、任务id、依赖的任务id、输入参数。LLM需合理拆分出全部最简任务并推理出其间的依赖关系。因此,LLM的性能将决定整个流程的结果是否成功
  2. 模型选择:通过prompt将候选模型(模型id+模型描述)输入LLM中,LLM将根据每个任务的需要选择对应模型。考虑到最大上下文长度限制,候选模型首先根据其在对应领域中的排名筛选出前K个模型。
  3. 任务执行:若某任务有依赖的前序任务,则将依赖的任务输出以参数形式放入。同时对于无依赖的工作,则并行执行提供效率。作者还提出了一种混和推理断点部署模型,即当本地部署了某专家模型时则优先使用否则在云端进行推理,能很好保持系统稳定性和效率
  4. 回应输出:通过prompt,LLM将每个专家模型的结果汇总,输出执行过程和最后结果

试验:

  • LLM的任务计划是整个流程是否成功的关键,作者对Alpaca-7b、Vicuna-7b、GPT-3.5在任务计划上(包含单一任务、链式任务、图式任务)进行测试。对于单一任务主要评估task name和真值是否对应,链式任务还需额外评估和真值的edit distance即任务之间是否出现关系混乱、缺失或者增加额外的任务,图式任务额外通过prompt使用GPT4打分。
  • 作者还构建了一个人工标注的任务计划数据集和一个GPT4标注的数据集

局限:

  1. 任务计划是HuggingGPT的重要环节直接决定最终成功与否,但任务计划能力严重依赖于LLM的性能(可微调一个任务计划模型或者使用人工算法严格推理出任务,反映了在推理方面LLM不能完全胜任)
  2. 在整个流程中,LLM作为控制器会影响效率(其中的某些环节可考虑用人工算法替代,最后结果输出环节换上LLM)
  3. 最大输入限制,导致了候选模型的个数受限
  4. LLM的不稳定性导致了整个系统的稳定性受限(仍可考虑某些重要环节由人工算法替代)
  5. agent的通病,或者说是“语言即连接LLM的接口”的范式通病,即其性能严重依赖于prompt。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值