LLM RL
文章平均质量分 74
UnknownBody
AI博士,最近一直follow大模型相关论文,每日会更新学术界论文的进展。
展开
-
Meta-DT: Offline Meta-RL as Conditional Sequence Modeling with World Model Disentanglement
通用人工智能的一个长期目标是高度能干的通才,他们可以从不同的经验中学习,并归纳到看不见的任务中。语言和视觉社区通过扩大在大规模数据集上训练的基于Transformer的模型,在这一趋势上取得了显著进展,而强化学习(RL)代理在这种范式下仍然存在泛化能力差的问题。为了应对这一挑战,我们提出了元决策Transformer(Meta DT),它利用Transformer架构的顺序建模能力和通过世界模型解纠缠进行的鲁棒任务表示学习,在离线元RL中实现了高效的泛化。原创 2024-10-22 10:35:59 · 102 阅读 · 1 评论 -
β-DPO: Direct Preference Optimization with Dynamic β
直接偏好优化 (DPO) 已成为训练大型语言模型 (LLM) 以符合人类偏好的一种引人注目的方法。但是,DPO 的性能对其权衡参数β的微调以及首选项数据的质量很敏感。我们分析了β和数据质量对 DPO 的影响,发现最佳 β 值随成对数据的信息量而变化。为了解决静态β值的局限性,我们引入了一种新的框架,该框架可以根据数据质量考虑在批次级别动态校准β。此外,我们的方法结合了β引导的数据过滤,以防止异常值的影响。原创 2024-10-05 11:15:00 · 126 阅读 · 0 评论 -
Imitating Language via Scalable Inverse Reinforcement Learning
大多数语言模型训练都建立在模仿学习的基础上。它涵盖了预训练、监督微调,并影响了从人类反馈进行强化学习 (RLHF) 的起始条件。用于下一个token预测的最大似然估计 (MLE) 的简单性和可扩展性使其成为主导范式。然而,更广泛的模仿学习领域可以更有效地利用自回归生成的基础顺序结构。我们专注于研究逆向强化学习 (IRL) 对模仿的看法,提取奖励并直接优化序列而不是单个token的可能性,并评估其对微调大型语言模型的好处。我们提供了一个新角度,将逆软 Q 学习重新表述为 MLE 的时间差异正则化扩展。原创 2024-09-18 11:26:31 · 125 阅读 · 0 评论 -
KNOWLEDGEABLE AGENTS BY OFFLINE REINFORCEMENT LEARNING FROM LARGE LANGUAGE MODEL ROLLOUTS
强化学习(RL)训练智能体通过环境交互数据完成复杂任务,但其能力也受到可用数据范围的限制。为了获得知识渊博的代理,一种有前景的方法是利用大型语言模型(LLM)的知识。尽管之前的研究将LLM与RL相结合,但由于语义差距,这两个组件的无缝集成仍然具有挑战性。本文介绍了一种新方法,即语言模型展开中的知识代理(KALM),该方法以虚拟展开的形式从LLM中提取知识,代理可以通过离线强化学习方法轻松学习。KALM的主要挑战在于LLM的基础,因为LLM本质上仅限于文本数据,而环境数据通常包含LLM看不到的数值向量。原创 2024-08-07 20:15:13 · 132 阅读 · 0 评论 -
Survey on Large Language Model-Enhanced Reinforcement Learning: Concept, Taxonomy, and Methods
凭借广泛的预训练知识和高级通用能力,大型语言模型(LLM)成为在多任务学习、样本效率和任务规划等方面增强强化学习(RL)的有前景的途径。在这项调查中,我们全面回顾了LLM增强RL的现有文献,并总结了其与传统RL方法相比的特点,旨在阐明未来研究的研究范围和方向。利用经典的代理-环境交互范式,我们提出了一种结构化的分类法,对RL中LLM的功能进行系统分类,包括四个角色:信息处理器、奖励设计者、决策者和生成器。此外,对于每个角色,我们总结了方法论,分析了缓解的具体强化学习挑战,并提供了对未来方向的见解。原创 2024-07-22 16:18:43 · 447 阅读 · 0 评论 -
Harnessing Discrete Representations for Continual Reinforcement Learning
强化学习(RL)代理只使用来自环境的观察来做出决策,因此严重依赖于这些观察的表示。尽管最近的一些突破使用了基于向量的观测分类表示,通常称为离散表示,但很少有工作明确评估这种选择的重要性。在这项工作中,我们对离散表示在世界模型学习、无模型强化学习以及最终的连续强化学习问题中的优势进行了实证研究,我们发现离散表示的影响最大。我们发现,与传统的连续表示相比,在离散表示上学习的世界模型能够以较小的容量准确地模拟更大比例的状态空间,并且用离散表示训练的代理可以用较少的数据学习更好的策略。原创 2024-07-18 15:08:43 · 336 阅读 · 0 评论 -
SRLM: Human-in-Loop Interactive Social Robot Navigation with Large Language Model
交互式社交机器人助手必须在复杂和拥挤的空间中提供服务,同时根据实时人类语言命令或反馈调整其行为。在本文中,我们提出了一种新的混合方法,称为社交机器人规划器(SRLM),它集成了大型语言模型(LLM)和深度强化学习(DRL),以在充满人的公共空间中导航并提供多种社会服务。SRLM实时从人在环命令中推断全局规划,并将社会信息编码到基于LLM的大型导航模型(LNM)中,用于低级运动执行。原创 2024-07-11 15:40:03 · 57 阅读 · 0 评论 -
Can Large Language Models Play Games? A Case Study of A Self-Play Approach
大型语言模型(LLM)利用来自互联网的大量数据,存储广泛的先验知识。虽然LLM已被证明是有益的决策辅助工具,但它们的可靠性受到推理、幻觉现象等方面的限制。另一方面,蒙特卡罗树搜索(MCTS)是一种启发式搜索算法,通过递归推出和自玩来提供可靠的决策解决方案。然而,MCTS的有效性在很大程度上依赖于启发式修剪和外部价值函数,尤其是在复杂的决策场景中。这项工作引入了一种创新的方法,该方法通过MCTS自玩来支持LLM,以有效地解决基于回合的零和游戏(DTZG),如国际象棋和围棋,而不需要额外的训练。原创 2024-06-27 22:02:03 · 61 阅读 · 0 评论 -
Re2LLM: Reflective Reinforcement Large Language Model for Session-based Recommendation
大型语言模型(LLM)正在成为增强基于会话的推荐(SBR)的有前途的方法,其中基于提示和基于微调的方法都已被广泛研究,以使LLM与SBR保持一致。然而,由于缺乏特定任务的反馈,前一种方法难以获得最佳提示来引出LLM的正确推理,导致推荐不令人满意。尽管后一种方法试图利用特定领域的知识对LLM进行微调,但它们面临着计算成本高和依赖开源主干网等限制。为了解决这些问题,我们提出了一个用于SBR的反射强化大语言模型(Re2LLM),指导LLM专注于更准确、更高效的建议所必需的专业知识。原创 2024-06-26 14:26:47 · 44 阅读 · 0 评论 -
XLand-100B: A Large-Scale Multi-Task Dataset for In-Context Reinforcement Learning
随着上下文内学习范式在大规模语言和计算机视觉模型中的成功,最近出现的上下文内强化学习领域正在经历快速增长。然而,由于缺乏具有挑战性的基准,它的开发受到了阻碍,因为所有实验都是在简单的环境和小规模的数据集上进行的。我们提出了XLand-100B,这是一个基于XLand-MiniGrid环境的大规模上下文强化学习数据集,作为缓解这一问题的第一步。它包含了近3万个不同任务的完整学习历史,涵盖了100B的过渡和2.5B的情节。收集数据集需要5万个GPU小时,这超出了大多数学术实验室的能力范围。原创 2024-06-25 16:20:28 · 54 阅读 · 0 评论 -
RLHF Workflow: From Reward Modeling to Online RLHF
我们在本技术报告中介绍了从人类反馈中进行在线迭代强化学习(RLHF)的工作流程,在最近的大型语言模型(LLM)文献中,该技术被广泛报道为大大优于离线学习。然而,现有的开源RLHF项目在很大程度上仍然局限于离线学习环境。在本技术报告中,我们旨在填补这一空白,并提供一个易于复制的在线迭代RLHF的详细脚本。特别是,由于在线人类反馈对于资源有限的开源社区来说通常是不可行的,我们首先使用一组不同的开源数据集构建偏好模型,并使用构建的代理偏好模型来近似人类反馈。原创 2024-05-22 11:32:22 · 166 阅读 · 0 评论 -
Using Large Language Models to Automate and Expedite Reinforcement Learning with Reward Machine
我们提出了LARL-RM(Large language modelgenerated Automaton for Reinforcement Learning with Reward Machine)算法,以使用自动机将高级知识编码到强化学习中,从而加快强化学习。我们的方法使用大型语言模型(LLM)使用提示工程来获得高级领域特定知识,而不是直接向强化学习算法提供高级知识,这需要专家对自动机进行编码。我们使用思想链和小样本方法进行提示工程,并证明我们的方法使用这些方法是有效的。原创 2024-04-06 10:00:01 · 83 阅读 · 0 评论 -
Active Preference Learning for Large Language Models
随着大型语言模型(LLM)的能力越来越强,用于与人类意图保持一致的微调技术变得越来越重要。调整这些模型的一个关键考虑因素是如何最有效地使用人力资源,或者在LLM本身被用作预言机的情况下对资源进行建模。从人类或人工智能偏好进行强化学习(RLHF/RLAIF)是这种技术最突出的例子,但它很复杂,而且往往不稳定。直接偏好优化(DPO)最近被提出作为一种更简单、更稳定的替代方案。在这项工作中,我们为DPO开发了一种主动学习策略,以更好地利用偏好标签。原创 2024-04-05 13:59:57 · 52 阅读 · 0 评论 -
REVIEWING SYNERGIES BETWEEN REINFORCEMENT LEARNING AND LARGE LANGUAGE MODELS
在这项工作中,我们回顾了将强化学习(RL)和大型语言模型(LLM)相结合的研究,这两个领域的发展势头归功于深度神经网络的发展。基于这两种模型类型相互作用的方式,我们提出了一种新的三个主要类的分类法。第一类RL4LLM包括利用RL来提高LLM在与自然语言处理相关的任务中的性能的研究。RL4LLM分为两个子类,这取决于RL是用于直接微调现有LLM还是用于改进LLM的提示。在第二类LLM4RL中,LLM帮助训练RL模型,该模型执行与自然语言无关的任务。原创 2024-04-01 18:04:07 · 393 阅读 · 0 评论 -
Training Large Language Models for Reasoning through Reverse Curriculum Reinforcement Learning
在本文中,我们提出了R3R^3R3:通过反向课程强化学习进行学习推理(RL),这是一种仅使用结果监督来实现大型语言模型过程监督的新方法。将RL应用于复杂推理的核心挑战是确定一系列能产生积极回报的行动,并为优化提供适当的监督。结果监督在不识别错误位置的情况下为最终结果提供稀疏的奖励,而过程监督提供逐步奖励,但需要大量的手动注释。R3R^3R3通过从正确的演示中学习克服了这些限制。具体地说,R3R^3R3将推理的开始状态从演示的结束逐渐滑动到开始,有助于在所有阶段更容易地进行模型探索。原创 2024-03-20 10:36:42 · 135 阅读 · 0 评论 -
Secrets of RLHF in Large Language Models Part II: Reward Modeling
从人类反馈中强化学习(RLHF)已成为将语言模型与人类价值观和意图相一致的关键技术,使模型能够产生更有益和无害的反应。奖励模型被训练为人类偏好的代理,以驱动强化学习优化。虽然奖励模型通常被认为是实现高性能的核心,但它们在实际应用中面临以下挑战:(1)数据集中不正确和模糊的偏好对可能会阻碍奖励模型准确捕捉人类意图。(2) 根据特定分布的数据训练的奖励模型通常难以推广到该分布之外的示例,并且不适合迭代RLHF训练。在本报告中,我们试图解决这两个问题。原创 2024-02-28 16:16:03 · 527 阅读 · 0 评论
分享