在环境交互中持续进化！神经符号视角下的LLM自训练框架

最新推荐文章于 2024-07-06 01:43:55 发布

PaperWeekly

最新推荐文章于 2024-07-06 01:43:55 发布

阅读量550

点赞数 20

本文链接：https://blog.csdn.net/c9Yv2cf9I06K2A9E/article/details/140055262

版权

论文题目：

Interactive Evolution: A Neural-Symbolic Self-Training Framework For Large Language Models

作者单位：

西安交通大学、上海AI Lab、香港大学、南京大学

论文地址：

https://arxiv.org/abs/2406.11736

项目地址：

https://github.com/xufangzhi/ENVISIONS

研究背景与核心问题

大语言模型（Large Language Model, LLM）在下游任务上的卓越性能，主要依靠大量人类标注的自然语言（Natural Language, NL）数据训练。为了摆脱对人类标注数据的强依赖，研究者们开始利用合成数据，进行模型的自训练（Self-Training），从而实现大模型能力从弱到强的转变（Weak-to-Strong）。

这些 LLM Self-Training 的最新研究主要集中在以自然语言为核心的场景中，即输入 x 和输出 y 都是 NL 的形式。然而，为了拓展 LLM 的应用范围和能力边界，需要神经-符号结合（Neural-Symbolic）的复杂应用场景受到越来越多的关注。

在这些 neural-symbolic 场景中（例如 agentic tasks），LLM 需要根据自然语言指令 x，生成可执行的符号化表示 a，并在环境中执行得到结果（或状态）y。相比于丰富的 NL 标注数据（x-y），收集符号化的数据对（x-a-y）是非常昂贵且有挑战性的，主要受限于符号语言（Symbolic Language，SL）的稀缺性和内生复杂性。

因此，我们研究的核心问题就是：如何在不依赖人类标注符号数据的情况下，实现 LLM 在神经-符号场景下的 Self-Training？

环境交互的Self-Training范式

当前，有两种常见的 Self-Training 范式，如下图（a）、（b）所示。

第一种是 Distill-then-Finetune。通过 Prompt Teacher LLM（如 GPT-4）获取数据对，用于 student LLM 的训练。该方法简单且有效，缺点是严重依赖于 Teacher LLM 且成本高。

第二种是 Reinforced Self-Training。利用 LLM 和 RL 的训练结合，来提升性能。但是，该范式的训练非常低效，且奖励模型的训练同样需要依赖人类标注。

针对 neural-symbolic 场景，我们提出 Env-guided Self-Training 范式（见图c）。仅仅依靠 LLM 自身与环境的不断交互，完成 weak-to-strong 的转化。优势在于：1）不引入人类标注和 Teacher LLM，能解决 SL 数据稀缺的挑战。2）通过自我合成数据实现自我进化，解决 LLM 在 neural-symbolic 场景上的能力短板。

上述三种范式不是正交的，理论上可以自由组合。

自训练框架ENVISIONS

基于 Env-guided Self-Training 范式，我们提出了一个全新的自训练框架 ENVISIONS：ENV-guIded Self-traIning framework fOr Neural Symbolic scenarios，如下图所示。

3.1 Preliminaries

对于每一个 iteration，我们可以拿到 pair，其中是 NL 形式的任务指令，是对应的答案或者 NL 描述的一种结果状态。

基本设定：基于 NL 的输入，LLM 需要生成符号化的输出，通过在环境 ENV 中的执行，得到确定性结果。

3.2 Online Exploration

Online exploration 包含 Step1-7，LLM 不断地自主生成候选轨迹并与环境交互，构造高质量的正负训练样本。其中，Step1-3 为 Self-Exploration 阶段，Step4-6 为 Self-Refinement 阶段，Step7 为 Self-Rewarding 阶段。

3.2.1 Self-Exploration

Step 1：根据输入，生成个候选 symbolic solutions 。即，；

Step 2：在环境 ENV 中执行每一个，得到反馈结果，即；

Step 3：根据环境的反馈与作比较，得到二值化的奖励，即。

3.2.2 Self-Refinement

由于 NL-centric 的 LLM 在符号语言生成上的天然劣势，根据直接生成是有挑战性的。考虑将作为参考输入，进一步生成。该步骤可以看作 Self-Refine 的过程。

在 Step4-Step6 中，我们进行与 Self-Exploration 阶段类似的操作。根据输入和，合成，并通过与环境的交互，得到二值化的奖励。

3.2.3 Self-Rewarding

根据 Step1-6，只能获得二值化的反馈。但无法区分更好的正样本或负样本。因此，使用生成输出过程中的 length-normalized logits，来作为 soft self-rewards，衡量样本之间的相对好坏。

3.3 Data Selection and Training Strategies

前 7 个 step，收集到的轨迹可以表示为和。

对轨迹进行过滤筛选，得到更优的轨迹。使用去更新 candidate trajectory pool。

一种最直接 bootstrap LLM 的方式，就是利用正样本进行微调。为了得到更优的正样本进行进练，根据当前 trajectory pool 中每一个正样本的 self-rewards 值，进行重新降序排序，得到 ranked positive set .

对于第个输入，取前个正样本进行训练，形成集合。

对应的就是一个 SFT 损失，根据 NL 输入生成对应的。

除了正样本之外，candidate trajectory pool 中的负样本也具有很大的利用价值。例如，LLM 可以在 weak-to-strong 中获取 learn from mistakes 的能力。与正样本 pool 相似，我们也可以得到 ranked negative set 。排位越前的负样本轨迹，对应的 self-rewards 值越高，说明是更难的负样本。

从和中，我们使用 self-rewards 更低的正样本，与 self-rewards 更高的负样本，去构造 N2 个正负样本对。形成包含的集合。考虑到 RL 方法在探索场景中的低效性，我们构造 RL-free 的 self-refine loss ，根据和去预测。

最终的训练损失就是 +，是一个纯 SFT 的 loss。

主要实验

4.1 实验设定

实验中选择 LLaMA2-Chat（7B/13B）作为基座大模型。在三个不同的领域任务上对自训练框架进行验证，分别是 Web Agent、Math Reasoning、Logic Reasoning。具体细节如下表所示。

对比的基线方法可以按照 self-training 的范式分为对应的三类。Distill-then-Finetune 中，分别采用 GPT-4 和 Claude-2 作为 Teacher LLM。Reinforced Self-Training 中，我们引入 Self-Rewarding、iterative SFT+DPO 作为强基线。Env-guided Self-Training 中，将 STaR 拓展到环境交互的场景，作为对比基线。

4.2 ENVISIONS在多类任务上展现了一致的优越性

从主表中可以看出，ENVISIONS 自训练框架在所有测试任务中，均超越了对比的基线方法。相较于次优的对比基线方法，也取得了接近 3% 的平均性能增益。同时，Env-guided Self-Training 范式在神经-符号场景下，展现了非常强的可拓展性。

4.3 ENVISIONS自训练框架兼备进化效率和可持续性

下图中呈现了 LLaMA2-Chat（7B）的进化过程，（a）图中为性能变化过程，（b）图中为探索到的成功样本的数量变化过程。

小结：（1）ENVISIONS 探索效率很高，且随着迭代轮次的增加，保持了稳定性。（2）RL 的基线方法在神经符号探索场景中表现的很挣扎。

4.4 在多个基座模型上的泛化能力

为了证明 ENVISIONS 在不同基座 LLM 上的泛化能力，下图展示了多个基座 LLM 在数学推理任务上的实验结果。

小结：ENVISIONS 不仅能训练 LLM 完成 weak-to-strong 的转变，也能 convert LLMs from strong to stronger。

分析实验

5.1 ENVISIONS 成功的关键模块是什么？

首先，本文进行了消融实验，验证了各个关键模块的有效性。如下图所示。

5.2 ENVISIONS 出色性能的深层原因分析

除此以外，本文进行了大量分析实验，来探索 ENVISIONS 优异性能的深层原因。

主要结论有三点：（1）平衡的探索效率和探索稳定性是 weak-to-strong 成功的关键。（2）清晰地区分正、负样本可以帮助 LLM 的优化。（3）生成轨迹的多样性对于 self-training 过程非常重要。

主要贡献总结

（1）方法贡献。本文针对神经符号场景，提出了基于环境交互的自训练框架ENVISIONS。无需人类标注、Teacher LLM，实现 LLM weak-to-strong 的转变。

（2）实验分析贡献。本文进行了全面的实验分析，验证了 ENVISIONS 的有效性，以及 Env-guided Self-Training 范式在神经符号场景下的优越性。大量针对 “why” questions 的分析，为后续研究提供了 insights。

更多阅读

#投稿通道#

让你的文字被更多人看到

如何才能让更多的优质内容以更短路径到达读者群体，缩短读者寻找优质内容的成本呢？答案就是：你不认识的人。

总有一些你不认识的人，知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁，促使不同背景、不同方向的学者和学术灵感相互碰撞，迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人，在我们的平台上分享各类优质内容，可以是最新论文解读，也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个，让知识真正流动起来。

📝 稿件基本要求：

• 文章确系个人原创作品，未曾在公开渠道发表，如为其他平台已发表或待发表的文章，请明确标注

• 稿件建议以 markdown 格式撰写，文中配图以附件形式发送，要求图片清晰，无版权问题

• PaperWeekly 尊重原作者署名权，并将为每篇被采纳的原创首发稿件，提供业内具有竞争力稿酬，具体依据文章阅读量和文章质量阶梯制结算

📬 投稿通道：

• 投稿邮箱：hr@paperweekly.site

• 来稿请备注即时联系方式（微信），以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信（pwbot02）快速投稿，备注：姓名-投稿

△长按添加PaperWeekly小编

🔍

现在，在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

PaperWeekly

关注

20
点赞
踩
11

收藏

觉得还不错? 一键收藏
0
评论
在环境交互中持续进化！神经符号视角下的LLM自训练框架

论文题目：Interactive Evolution: A Neural-Symbolic Self-Training Framework For Large Language Models作者单位：西安交通大学、上海AI Lab、香港大学、南京大学论文地址：https://arxiv.org/abs/2406.11736项目地址：https://github.com/xufangzhi/ENVI...
复制链接

扫一扫