强化学习+大模型轻松发顶会!不要光想着LLM,OpenAI o1这样做才是对的

OpenAI最近的新模型o1大家关注了吗?体验了一下雀食功能强大,逻辑和推理能力基本碾压GPT4o。

研究了一下OpenAI给的技术博客,o1采用的是大模型+强化学习的策略,通过强化学习进行训练,成功突破LLM推理极限。这种策略一直以来都挺火,结合了俩热点,不仅实现了更高效的学习和更强的泛化能力,也减少了训练成本,提高系统的整体性能。

目前这个方向的研究主要围绕四个技术路线展开:LLM 作为信息处理者、LLM 作为奖励设计者、LLM 作为决策者、LLM 作为生成者。最近也有了不少阶段性的成果,比如ICLR 2024的Dynalang以及AMAGO方法。

如果大家想冲顶会,这也是个不错的方向。为了让大家找idea不费时间,我已经根据上述四个技术路线整理了42篇最新的论文,开源代码基本都有。

论文原文+开源代码需要的同学看文末

LLM 作为信息处理者

ReCoRe: Regularized Contrastive Representation Learning of World Model

方法:论文提出了一种利用不变特征学习的World Model方法ReCoRe,通过最小化对比损失和数据增强技术,实现了在分布外泛化、模拟到现实传输和样本效率方面的显著提升,填补了当前模型在泛化和样本效率上的不足。

创新点:

  • 提出了通过对比损失学习不变特征的方法,以提升强化学习模型在分布外(OoD)泛化能力。

  • 引入了一种干预不变正则化作为辅助任务,如深度预测,来显式地促进特征学习的稳定性,防止对比学习中特征崩溃。

  • 通过将特征学习与控制器的优化分离,提高了样本效率,并简化了控制器学习。

LLM 作为奖励设计者

Read and Reap the Rewards: Learning to Play Atari with the Help of Instruction Manuals

方法:作者通过“阅读与奖励”框架利用人类书写的说明手册提高强化学习(RL)在Atari游戏中的性能,以解决高样本复杂性问题,通过QA提取模块和推理模块赋予辅助奖励,显著提升A2C等算法的训练速度和性能。

创新点:

  • 首次成功将说明书信息用于解决Atari RL基准问题的全自动化和可推广框架。

  • 通过QA提取模块和推理模块,将说明书信息转化为辅助奖励提供给RL代理。

  • 通过距离跟踪假设简化Atari游戏中的对象互动检测。

  • 只考虑与代理靠近的互动,为"击中"互动查询手册。

LLM 作为决策者

AMAGO: Scalable In-Context Reinforcement Learning for Adaptive Agents

方法:本文介绍了一种名为AMAGO的新算法,旨在解决通用化、长期记忆和元学习的挑战。通过使用长序列Transformer,AMAGO重新设计了离策略的演员-评论者更新,支持从完整回合中并行学习。

创新点:

  • 重新设计了离策略actor-critic更新,使得长序列Transformer能够并行学习完整的rollouts,突破了离策略in-context RL在内存长度、模型大小和规划视野方面的瓶颈。

  • 此技术在离策略数据上,通过重标长轨迹,构建复杂的多阶段任务,自动生成探索计划。

LLM 作为生成者

Understanding Language in the World by Predicting the Future

方法:论文提出了一种称为Dynalang的代理,通过预测未来以强化语言理解,填补了现有强化学习在处理多样化语言输入时的研究空白,采用基于世界模型的理论框架,通过多模态表示的预测和自监督学习方法,显著提高了代理在复杂任务中的表现。

创新点:

  • 提出了一种创新的方法,将语言理解与未来预测统一起来,使代理能够通过预测未来的文本和图像表示来理解复杂语言。

  • 引入了Dynalang,一个多模态世界模型,通过在线经验学习语言和图像的表示,并利用这些表示进行行为决策。

  • 允许通过单模态数据(如文本或视频)进行预训练,从而使模型能够从大规模离线数据中受益。

关注下方《学姐带你玩AI》🚀🚀🚀

回复“强化大模型”获取全部论文+开源代码

码字不易,欢迎大家点赞评论收藏

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值