强化学习+大模型轻松发顶会！不要光想着LLM，OpenAI o1这样做才是对的_recore: regularized contrastive representation lea-CSDN博客

OpenAI最近的新模型o1大家关注了吗？体验了一下雀食功能强大，逻辑和推理能力基本碾压GPT4o。

研究了一下OpenAI给的技术博客，o1采用的是大模型+强化学习的策略，通过强化学习进行训练，成功突破LLM推理极限。这种策略一直以来都挺火，结合了俩热点，不仅实现了更高效的学习和更强的泛化能力，也减少了训练成本，提高系统的整体性能。

目前这个方向的研究主要围绕四个技术路线展开：LLM 作为信息处理者、LLM 作为奖励设计者、LLM 作为决策者、LLM 作为生成者。最近也有了不少阶段性的成果，比如ICLR 2024的Dynalang以及AMAGO方法。

如果大家想冲顶会，这也是个不错的方向。为了让大家找idea不费时间，我已经根据上述四个技术路线整理了42篇最新的论文，开源代码基本都有。

论文原文+开源代码需要的同学看文末

方法：论文提出了一种利用不变特征学习的World Model方法ReCoRe，通过最小化对比损失和数据增强技术，实现了在分布外泛化、模拟到现实传输和样本效率方面的显著提升，填补了当前模型在泛化和样本效率上的不足。

创新点：

方法：作者通过“阅读与奖励”框架利用人类书写的说明手册提高强化学习（RL）在Atari游戏中的性能，以解决高样本复杂性问题，通过QA提取模块和推理模块赋予辅助奖励，显著提升A2C等算法的训练速度和性能。

创新点：

方法：本文介绍了一种名为AMAGO的新算法，旨在解决通用化、长期记忆和元学习的挑战。通过使用长序列Transformer，AMAGO重新设计了离策略的演员-评论者更新，支持从完整回合中并行学习。

创新点：

重新设计了离策略actor-critic更新，使得长序列Transformer能够并行学习完整的rollouts，突破了离策略in-context RL在内存长度、模型大小和规划视野方面的瓶颈。
此技术在离策略数据上，通过重标长轨迹，构建复杂的多阶段任务，自动生成探索计划。

方法：论文提出了一种称为Dynalang的代理，通过预测未来以强化语言理解，填补了现有强化学习在处理多样化语言输入时的研究空白，采用基于世界模型的理论框架，通过多模态表示的预测和自监督学习方法，显著提高了代理在复杂任务中的表现。

创新点：

关注下方《学姐带你玩AI》🚀🚀🚀

回复“强化大模型”获取全部论文+开源代码

码字不易，欢迎大家点赞评论收藏