干货！一种适用性、可拓展性强的离线强化学习方法

AITIME论道

于 2022-03-31 12:00:00 发布

阅读量1.4k

点赞数 2

文章标签：算法人工智能大数据机器学习深度学习

本文链接：https://blog.csdn.net/AITIME_HY/article/details/123887794

版权

本文介绍了离线强化学习方法ICQ，它解决了离线数据中外推误差的问题，适用于多种任务，包括单智能体和多智能体环境。通过隐约束策略学习，ICQ在D4RL和StarCraft II任务中表现出优越性能。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

点击蓝字

关注我们

AI TIME欢迎每一位AI爱好者的加入！

近年来，离线强化学习算法（Offline Reinforcement Learning）由于其不与环境交互，仅从数据集中学习策略，而得到越来越多的关注。与离线策略强化学习（Off-Policy Reinforcement Learning）不同，在离线场景下需要处理值函数估计中的外推误差，从而导致传统的Off-Policy方法无法直接用于离线场景。本篇论文从理论上分析了影响外推误差的因素，并提出了一种适用性及扩展性非常强的离线强化学习方法ICQ，从根本上克服了值函数中外推误差的影响。除此之外，本文基于ICQ提出了第一个多智能体离线强化学习算法，并在标准单智能体离线强化学习任务D4RL和离线多智能体任务StarCraft II上达到了优异的性能。该论文被NeurIPS 2021（Spotlight）被接收。

本期AI TIME PhD直播间，我们邀请到清华大学自动化系在读博士生——杨以钦，为我们带来报告分享《一种适用性、可拓展性强的离线强化学习方法》。