实时追踪科研动态丨小模型自我改进，数学和推理效果高达 7.13%，10.23精选新论文

AMiner学术搜索和科技情报挖掘

于 2023-10-25 15:30:23 发布

阅读量176

点赞数

文章标签：语言模型人工智能深度学习 LLM 小模型机器学习

本文链接：https://blog.csdn.net/ai_conf/article/details/134036055

版权

作为科研人员，每天需要检索和浏览大量的学术文献，以获取最新的科技进展和研究成果。

然而，传统的检索和阅读方式已经无法满足科研人的需求。

AMiner AI，一款集检索、阅读、知识问答于一体的文献知识工具。帮助你快提高检索、阅读论文效率，获取最新领域研究动态，让科研工作更加游刃有余。

在这里插入图片描述

如果想要对某篇论文进行深入对话，可以直接复制论文链接到浏览器上或者直达AMiner AI页面：

https://www.aminer.cn/chat/g/explain

2023年10月23日精选新论文列表：

1.AutoMix: Automatically Mixing Language Models

这篇论文介绍了 AutoMix：一种自动混合语言模型的方法。现有的大型语言模型（LLM）有各种规模和配置，这为优化计算成本和性能提供了广泛的选择。然而，如何有效地利用这些选项仍然具有挑战性。在本文中，作者提出了一种名为 AutoMix 的方法，该方法根据小型语言模型的输出正确性，策略性地将查询路由到更大的语言模型。AutoMix 的核心是一个无需训练的几何自验证机制，用于估计自身输出的可靠性。为了解决验证过程中的噪声问题，AutoMix 中采用了一个元验证器来提高这些评估的准确性。作者使用 LLAMA2-13/70B 在五个基于上下文推理的数据集上进行实验，结果表明 AutoMix 超过了现有的基线，将增量收益提高了 89%。相关代码和数据可以在 https://github.com/automix-llm/automix 上找到。

https://www.aminer.cn/pub/6531e2ca939a5f4082f5d68c/?f=cs

2.Teaching Language Models to Self-Improve through Interactive Demonstrations

这篇论文探讨了如何通过交互式演示来教导语言模型自我改进。近期研究对大型语言模型（LLM）的自我改进能力产生了浓厚兴趣，这要归功于通过提示它们分析并修改自己的输出。然而，对于较小的模型来说，这种能力是缺失的，并且难以学习，从而加大了最先进的 LLM 与更实惠、更快速模型之间的性能差距。为了缩小这一差距，我们引入了 TriPosT，一种赋予较小模型自我改进能力的训练算法，并表明我们的方法可以将 LaMA-7b 在数学和推理任务上的性能提高多达 7.13%。与之前的工作不同，我们通过让较小的模型与 LLM 交互以收集对其自己生成的反馈和改进，然后将这种经验重放以训练小模型。我们在四个数学和推理数据集上的实验证明，从错误中学习并纠正自己的错误对于小型模型提高性能至关重要。

https://www.aminer.cn/pub/6535d747939a5f408295c5bf/?f=cs

3.DPM-Solver-v3: Improved Diffusion ODE Solver with Empirical Model Statistics

这篇论文介绍了 DPM-Solver-v3，一种改进的用于扩散概率模型（DPMs）的 ODE 求解器，该模型在高保真图像生成方面表现出色，但采样过程效率低下。最近的工作通过提出利用 DPMs 特定 ODE 形式的快速 ODE 求解器来加速采样过程。然而，它们在推理过程中严重依赖特定的参数化（如噪声/数据预测），这可能不是最优选择。在本文中，我们提出了一种新的最优参数化采样公式，该公式最小化了 ODE 解的第一阶离散误差。基于这种公式，我们提出了 DPM-Solver-v3，一种通过引入在预训练模型上高效计算的几个系数，称为经验模型统计量，来改进 DPMs 的快速 ODE 求解器。我们进一步结合了多步方法和对称预测框架，并提出了一些改进采样质量的技术，在较小的函数评估次数（NFE）或较大的引导尺度时。实验表明，DPM-Solver-v3 在无条件和有条件采样中，无论是像素空间还是潜在空间的 DPMs，都取得了较好的或可比较的性能。

https://www.aminer.cn/pub/6535d747939a5f408295c4be/?f=cs

4.Let’s Synthesize Step by Step: Iterative Dataset Synthesis with Large Language Models by Extrapolating Errors from Small Models

这篇论文提出了一种名为"Synthesis Step by Step"（S3）的数据合成框架，通过利用大型语言模型丰富的知识来合成伪训练样本来训练小型模型，从而实现数据和计算效率。S3 框架通过迭代地扩展在小型真实验证数据集上训练的合成数据集中小型模型的误差，以缩小合成数据集与真实任务数据分布之间的分布差距。实验结果表明，该方法在多个自然语言处理任务上都能提高小型模型的性能，相较于基线方法，其性能有显著提升：与 ZeroGen 相比提升了 9.48%，与 GoldGen 相比提升了 2.73%，与在人类标注数据上训练的小型模型相比，最多提升了 15.17%。

https://www.aminer.cn/pub/6535d747939a5f408295c655/?f=cs

5.Contrastive Prefence Learning: Learning from Human Feedback without RL

这篇论文介绍了一种名为对比偏好学习（CPL）的新算法，该算法可以从人类反馈中学习最优策略，而无需学习奖励函数。传统的强化学习从人类反馈（RLHF）方法分为两个阶段：首先，使用人类偏好学习奖励函数；然后，通过强化学习（RL）优化所学奖励以使模型与人类意图对齐。然而，这种范式不仅基于对人类偏好的错误假设，而且由于策略梯度或 bootstrapping 在 RL 阶段导致的优化挑战，还导致难以处理的优化问题。为了解决这些问题，现有的 RLHF 方法限制自己仅在上下文性随机化设置（例如大型语言模型）或限制观察维数（例如基于状态的机器人技术）。通过引入一种基于后悔的人类偏好模型来优化人类反馈的行为的新算法，我们克服了这些局限。利用最大熵原理，我们推导出对比偏好学习（CPL），一种无需学习奖励函数即可从偏好中学习最优策略的算法，从而绕过了 RL 的需求。CPL 是完全离线的，仅使用简单的对比目标，并可以应用于任意 MDP。这使得 CPL 可以优雅地扩展到高维和序列 RLHF 问题，同时比以前的方法更简单。

https://www.aminer.cn/pub/6535d747939a5f408295c635/?f=cs

6.Tuna: Instruction Tuning using Feedback from Large Language Models

这篇论文介绍了 Tuna 方法，它是一种利用大型语言模型的反馈进行指令调整的方法。通过使用更强大的大型语言模型的直接输出，如 Instruct-GPT 和 GPT-4,来调整开源大型语言模型 (LLM) 如 LLaMA,已经被证明是一种成本效益高的方法，可以将其行为与人类偏好对齐。然而，指令调整后的模型每个指令只看到一个响应，缺乏潜在更好响应的知识。在本文中，作者提出了使用其新颖的概率排名和上下文排名方法来微调指令调整后的 LLM,以增加生成更好响应的可能性。概率排名使指令调整后的模型从教师 LLM 继承高质量和低质量响应的相对排名。另一方面，使用上下文排名学习允许模型使用更强 LLM 的上下文理解能力来细化其自己的响应分布。此外，作者将概率排名和上下文排名方法依次应用于指令调整后的 LLM。得到的模型，作者称之为 Tuna,在 Super Natural Instructions(119 个测试任务)、LMentry(25 个测试任务)、Vicuna QA 等任务上表现出色，甚至优于一些强大的强化学习基线。

https://www.aminer.cn/pub/6535d747939a5f408295c533/?f=cs

7.Democratizing Reasoning Ability: Tailored Learning from Large Language Model

论文探讨了如何普及推理能力，通过定制学习从大型语言模型中提炼知识。大型语言模型（LLMs）在自然语言处理方面表现出令人印象深刻的潜在能力，但由于计算需求和闭源特性，它们的普及受到阻碍。最近，通过从黑盒 LLM 中提炼知识来提高开源小型 LM 的研究，已经在指令跟随能力方面取得了令人鼓舞的结果。然而，更难以培养的推理能力相对较少被探索。在本文中，我们提出了一个定制学习方法，将这种推理能力提炼到较小的 LM 中，以促进独家推理能力的普及。与仅将 LLM 作为数据注释者相比，我们利用 LLM 作为推理教师的潜力，建立了一个交互式多轮学习范式。这个范式使学生将其不足暴露给黑盒教师，然后教师可以提供定制训练数据作为回报。此外，为了利用较小 LM 的推理潜力，我们提出了自我反思学习，以激励学生从自我制造的错误中学习。由于与多轮学习范式的无缝集成，从自我反思和 LLM 的学习都针对学生的学习状态进行了定制。在数学和常识推理任务的全面实验和分析中，展示了我们方法的有效性。

https://www.aminer.cn/pub/6535d747939a5f408295c4fe/?f=cs

8.SALMONN: Towards Generic Hearing Abilities for Large Language Models

这篇论文介绍了 SALMONN，一种通过将预训练的基于文本的大型语言模型（LLM）与语音和音频编码器整合到单个多模态模型中而构建的语音音频语言音乐开放神经网络。SALMONN 使 LLM 能够直接处理和理解通用音频输入，并在训练中用于训练的各种语音和音频任务上实现竞争力的性能，如自动语音识别和翻译、基于听觉信息的问答、情感识别、说话人验证以及音乐和音频字幕等。SALMONN 还具有一组在训练中未出现的潜在能力，包括不限于未训练语言的语音翻译、基于语音的槽填充、基于口语查询的问答、音频讲故事以及语音音频联合推理等。研究了跨模态潜在能力的存在，并提出了一种新颖的少量镜头激活调整方法来激活 SALMONN 的这些能力。据我们所知，SALMONN 是第一种模型，可以被视为通用听觉能力的人工智能（AI）朝着通用听觉能力迈进的一步。

https://www.aminer.cn/pub/6535d747939a5f408295c4d3/?f=cs

9.ToolChain: Efficient Action Space Navigation in Large Language Models with A Search**

这篇论文介绍了一种名为 ToolChain的方法，用于解决大型语言模型（LLM）在处理复杂现实问题时面临的行动空间导航问题。该方法基于 A搜索算法，将整个行动空间视为一棵决策树，每个节点代表可能参与解决方案计划的 API 函数调用。通过结合任务特定的成本函数设计，ToolChain能够有效地剪枝可能涉及错误行动的高成本分支，找出最短路径作为解决方案。在多个工具使用和推理任务上的大量实验证明，ToolChain能够在扩展的行动空间内平衡探索和利用，在规划和推理任务上分别比最先进的基线高 3.1% 和 3.5%，同时分别需要 7.35 倍和 2.31 倍的时间。

https://www.aminer.cn/pub/6535d747939a5f408295c495/?f=cs

10.Auto-Instruct: Automatic Instruction Generation and Ranking for Black-Box Language Models

这篇论文介绍了一种名为 Auto-Instruct 的方法，用于自动提高向大型语言模型（LLM）提供的指令的质量。该方法利用 LLM 的生成能力为给定任务生成多种候选指令，然后使用一种训练于多种 575 个现有 NLP 任务的评分模型对它们进行排名。在 118 个领域外任务的实验中，Auto-Instruct 超过了人类编写的指令和现有的 LLM 生成的指令基线。此外，即使对于那些没有包含在其训练过程中的其他 LLM，我们的方法也表现出显著的泛化能力。

https://www.aminer.cn/pub/6535d747939a5f408295c42e/?f=cs

AMiner学术搜索和科技情报挖掘

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
实时追踪科研动态丨小模型自我改进，数学和推理效果高达 7.13%，10.23精选新论文

在本文中，作者提出了一种名为 AutoMix 的方法，该方法根据小型语言模型的输出正确性，策略性地将查询路由到更大的语言模型。然而，对于较小的模型来说，这种能力是缺失的，并且难以学习，从而加大了最先进的 LLM 与更实惠、更快速模型之间的性能差距。实验结果表明，该方法在多个自然语言处理任务上都能提高小型模型的性能，相较于基线方法，其性能有显著提升：与 ZeroGen 相比提升了 9.48%，与 GoldGen 相比提升了 2.73%，与在人类标注数据上训练的小型模型相比，最多提升了 15.17%。
复制链接

扫一扫