智能体~优化

大模型的出现引发了智能体设计的革命性变革,在 ChatGPT 及其插件系统问世后,对大模型智能体的设计和开发吸引了极大的关注。帮助完成预订、下单等任务,协助编写文案,自主从网络上搜索最新的知识与新闻等等,这种通用、强大的智能助理,让大模型强大的语义理解、推理能力将之变成了可能。

OpenAI 首届开发者大会上,Sam Altman 展示了 ChatGPT 作为智能助理的可能性。

为了提升大模型智能体交互的性能和可靠性,目前学界已经提出了多种基于不同提示语技术的智能体框架,如将思维链结合至决策过程的 ReAct、利用大模型的自检查能力的 RCI 等。

尽管大模型智能体已经表现出强大的能力,但上述方案都缺乏让大模型智能体从自身的既往交互经历中学习进化的能力。而这种持续进化的能力,正成为大模型智能体发展中亟待解决的问题。

一般来说,决策交互任务中通常会采用强化学习,基于过往交互历程来优化智能体的交互策略,但对于大模型来说,直接优化其参数的代价巨大。

Algorithm Distillation(算法蒸馏)等工作提出了 「即境强化学习」(in-context reinforcement learning)的概念,将强化学习训练过程输入预训练过的决策 transformer,就可以让模型在不需要更新参数的情况下,从输入的训练历程中学习到性能演进的模式,并优化下一步输出的策略。

然而这种模式却难以直接应用于文本大模型。因为复杂的观测、动作表示成文本需要消耗更多的词元(token),这将导致完整的训练历程难以塞入有限的上下文。

针对该问题,上海交通大学跨媒体语言智能实验室(X-LANCE)提出了一种解决方案:通过外置

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值