在环境交互中持续进化!神经符号视角下的LLM自训练框架

fa83b6b3d67645fd37de4169c42e6564.gif

a8a412413b3856283c6148a5f703f570.png

论文题目:

Interactive Evolution: A Neural-Symbolic Self-Training Framework For Large Language Models

作者单位:

西安交通大学、上海AI Lab、香港大学、南京大学

论文地址:

https://arxiv.org/abs/2406.11736

项目地址:

https://github.com/xufangzhi/ENVISIONS

6b7bc1b668ef297dd3a857cbc26c4b6e.png

研究背景与核心问题

大语言模型(Large Language Model, LLM)在下游任务上的卓越性能,主要依靠大量人类标注的自然语言(Natural Language, NL)数据训练。为了摆脱对人类标注数据的强依赖,研究者们开始利用合成数据,进行模型的自训练(Self-Training),从而实现大模型能力从弱到强的转变(Weak-to-Strong)。

这些 LLM Self-Training 的最新研究主要集中在以自然语言为核心的场景中,即输入 x 和输出 y 都是 NL 的形式。然而,为了拓展 LLM 的应用范围和能力边界,需要神经-符号结合(Neural-Symbolic)的复杂应用场景受到越来越多的关注。

在这些 neural-symbolic 场景中(例如 agentic tasks),LLM 需要根据自然语言指令 x,生成可执行的符号化表示 a,并在环境中执行得到结果(或状态)y。相比于丰富的 NL 标注数据(x-y),收集符号化的数据对(x-a-y)是非常昂贵且有挑战性的,主要受限于符号语言(Symbolic Language,SL)的稀缺性和内生复杂性。

因此,我们研究的核心问题就是:如何在不依赖人类标注符号数据的情况下,实现 LLM 在神经-符号场景下的 Self-Training?

f63d9e95f05ddb0efaff9070842fcc9b.png

环境交互的Self-Training范式

当前,有两种常见的 Self-Training 范式,如下图(a)、(b)所示。

f0c273ead5a449ef83b04c415a4f52ac.png

第一种是 Distill-then-Finetune。通过 Prompt Teacher LLM(如 GPT-4)获取数据对,用于 student LLM 的训练。该方法简单且有效,缺点是严重依赖于 Teacher LLM 且成本高。

第二种是 Reinforced Self-Training。利用 LLM 和 RL 的训练结合,来提升性能。但是,该范式的训练非常低效,且奖励模型的训练同样需要依赖人类标注。

针对 neural-symbolic 场景,我们提出 Env-guided Self-Training 范式(见图c)。仅仅依靠 LLM 自身与环境的不断交互,完成 weak-to-strong 的转化。优势在于:1)不引入人类标注和 Teacher LLM,能解决 SL 数据稀缺的挑战。2)通过自我合成数据实现自我进化,解决 LLM 在 neural-symbolic 场景上的能力短板。

上述三种范式不是正交的,理论上可以自由组合。

e4af9fb3ccfa4f5bb3a979b9bf296b10.png

自训练框架ENVISIONS

基于 Env-guided Self-Training 范式,我们提出了一个全新的自训练框架 ENVISIONSENV-guIded Self-traIning framework fOr Neural Symbolic scenarios,如下图所示。

04c1b120c754a55c254dcd1962e31aee.png

3.1 Preliminaries

对于每一个 iteration,我们可以拿到 pair,其中 是 NL 形式的任务指令, 是对应的答案或者 NL 描述的一种结果状态。

基本设定:基于 NL 的输入 ,LLM 需要生成符号化的输出 ,通过在环境 ENV 中的执行,得到确定性结果 。

3.2 Online Exploration

Online exploration 包含 Step1-7,LLM 不断地自主生成候选轨迹并与环境交互,构造高质量的正负训练样本。其中,Step1-3 为 Self-Exploration 阶段,Step4-6 为 Self-Refinement 阶段,Step7 为 Self-Rewarding 阶段。

3.2.1 Self-Exploration

Step 1:根据输入 ,生成 个候选 symbolic solutions 。即,;

Step 2:在环境 ENV 中执行每一个  ,得到反馈结果,即 ;

Step 3:根据环境的反馈与  作比较,得到二值化的奖励,即 。

3.2.2 Self-Refinement

由于 NL-centric 的 LLM 在符号语言生成上的天然劣势,根据 直接生成 是有挑战性的。考虑将 作为参考输入,进一步生成 。该步骤可以看作 Self-Refine 的过程。

在 Step4-Step6 中,我们进行与 Self-Exploration 阶段类似的操作。根据输入 和 ,合成 ,并通过与环境的交互,得到二值化的奖励 。

3.2.3 Self-Rewarding

根据 Step1-6,只能获得二值化的反馈。但无法区分更好的正样本或负样本。因此,使用生成输出过程中的 length-normalized logits,来作为 soft self-rewards,衡量样本之间的相对好坏。

d3b83523c3ee751a676e680ccda1eef2.png

3.3 Data Selection and Training Strategies

前 7 个 step,收集到的轨迹可以表示为 和 。

369e64525885f9ee4a072b35179e5980.png

对轨迹进行过滤筛选,得到更优的轨迹 。使用 去更新 candidate trajectory pool。

04be2b47f2063e726c221d08db5b299f.png

一种最直接 bootstrap LLM 的方式,就是利用正样本进行微调。为了得到更优的正样本进行进练,根据当前 trajectory pool 中每一个正样本的 self-rewards 值,进行重新降序排序,得到 ranked positive set .

对于第 个输入 ,取前 个正样本进行训练,形成集合 。

39c7432f053c37647ce4418b35a0e1e0.png

对应的就是一个 SFT 损失 ,根据 NL 输入 生成对应的 。

b70236a4fc76ae5a56b1b76dd19667c8.png

除了正样本之外,candidate trajectory pool 中的负样本也具有很大的利用价值。例如,LLM 可以在 weak-to-strong 中获取 learn from mistakes 的能力。与正样本 pool 相似,我们也可以得到 ranked negative set 。排位越前的负样本轨迹,对应的 self-rewards 值越高,说明是更难的负样本。

cbe2eb09e324482da4b183e69140023a.png

从 和 中,我们使用 self-rewards 更低的正样本,与 self-rewards 更高的负样本,去构造 N2 个正负样本对。形成包含 的集合 。考虑到 RL 方法在探索场景中的低效性,我们构造 RL-free 的 self-refine loss ,根据 和 去预测 。

6e58d6bf8e8e7534b4321fcaef049706.png

最终的训练损失就是 +,是一个纯 SFT 的 loss。

c3c63e9359b93f3cc7df21301c582d78.png

主要实验

4.1 实验设定

实验中选择 LLaMA2-Chat(7B/13B)作为基座大模型。在三个不同的领域任务上对自训练框架进行验证,分别是 Web Agent、Math Reasoning、Logic Reasoning。具体细节如下表所示。

5986bfeb5fb5b7280c958c599d3e2743.png

对比的基线方法可以按照 self-training 的范式分为对应的三类。Distill-then-Finetune 中,分别采用 GPT-4 和 Claude-2 作为 Teacher LLM。Reinforced Self-Training 中,我们引入 Self-Rewarding、iterative SFT+DPO 作为强基线。Env-guided Self-Training 中,将 STaR 拓展到环境交互的场景,作为对比基线。

4.2 ENVISIONS在多类任务上展现了一致的优越性

从主表中可以看出,ENVISIONS 自训练框架在所有测试任务中,均超越了对比的基线方法。相较于次优的对比基线方法,也取得了接近 3% 的平均性能增益。同时,Env-guided Self-Training 范式在神经-符号场景下,展现了非常强的可拓展性。

73b3b0169a364302b3add141d55a6efd.png

4.3 ENVISIONS自训练框架兼备进化效率和可持续性

下图中呈现了 LLaMA2-Chat(7B)的进化过程,(a)图中为性能变化过程,(b)图中为探索到的成功样本的数量变化过程。

119c28c1bc4ce951da3ed7a226516b01.png

小结:(1)ENVISIONS 探索效率很高,且随着迭代轮次的增加,保持了稳定性。(2)RL 的基线方法在神经符号探索场景中表现的很挣扎。

4.4 在多个基座模型上的泛化能力

为了证明 ENVISIONS 在不同基座 LLM 上的泛化能力,下图展示了多个基座 LLM 在数学推理任务上的实验结果。

f66ffc3bbe6df30465d0d53ec9241662.png

小结:ENVISIONS 不仅能训练 LLM 完成 weak-to-strong 的转变,也能 convert LLMs from strong to stronger。

c8a0e516577cc123ec37bcb3c2f08f10.png

分析实验

5.1 ENVISIONS 成功的关键模块是什么?

首先,本文进行了消融实验,验证了各个关键模块的有效性。如下图所示。

6a373705332fc3bd6815c277261d2cc7.png

5.2 ENVISIONS 出色性能的深层原因分析

除此以外,本文进行了大量分析实验,来探索 ENVISIONS 优异性能的深层原因。

3181b65737875a2a3e511555a76f1e71.png

主要结论有三点:(1)平衡的探索效率和探索稳定性是 weak-to-strong 成功的关键。(2)清晰地区分正、负样本可以帮助 LLM 的优化。(3)生成轨迹的多样性对于 self-training 过程非常重要。

10a3d8f128a287e25d2a710e56530f6b.png

主要贡献总结

(1)方法贡献。本文针对神经符号场景,提出了基于环境交互的自训练框架ENVISIONS。无需人类标注、Teacher LLM,实现 LLM weak-to-strong 的转变。

(2)实验分析贡献。本文进行了全面的实验分析,验证了 ENVISIONS 的有效性,以及 Env-guided Self-Training 范式在神经符号场景下的优越性。大量针对 “why” questions 的分析,为后续研究提供了 insights。

更多阅读

8117e7e411f82d273581820beebc5d0e.png

3ba1375ac6605fa506857e4d0fc396cd.png

bcd2777dc96f94871423e7af2179048c.png

5dac27f7f44e243f0595102ce3bc5e2a.gif

#投 稿 通 道#

 让你的文字被更多人看到 

如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。

总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 

PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。

📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算

📬 投稿通道:

• 投稿邮箱:hr@paperweekly.site 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿

f889270d32c4dade9fdd62b8f4974e79.png

△长按添加PaperWeekly小编

🔍

现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

·

·

·

c721459c53fa7f0b1a645366183090d3.jpeg

  • 20
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值