干货!一种适用性、可拓展性强的离线强化学习方法

本文介绍了离线强化学习方法ICQ,它解决了离线数据中外推误差的问题,适用于多种任务,包括单智能体和多智能体环境。通过隐约束策略学习,ICQ在D4RL和StarCraft II任务中表现出优越性能。
摘要由CSDN通过智能技术生成

点击蓝字

d6bf68341f30feff42cb0e00c2270f06.png

关注我们

AI TIME欢迎每一位AI爱好者的加入!

近年来,离线强化学习算法(Offline Reinforcement Learning)由于其不与环境交互,仅从数据集中学习策略,而得到越来越多的关注。与离线策略强化学习(Off-Policy Reinforcement Learning)不同,在离线场景下需要处理值函数估计中的外推误差,从而导致传统的Off-Policy方法无法直接用于离线场景。本篇论文从理论上分析了影响外推误差的因素,并提出了一种适用性及扩展性非常强的离线强化学习方法ICQ,从根本上克服了值函数中外推误差的影响。除此之外,本文基于ICQ提出了第一个多智能体离线强化学习算法,并在标准单智能体离线强化学习任务D4RL和离线多智能体任务StarCraft II上达到了优异的性能。该论文被NeurIPS 2021(Spotlight)被接收。

本期AI TIME PhD直播间,我们邀请到清华大学自动化系在读博士生——杨以钦,为我们带来报告分享《一种适用性、可拓展性强的离线强化学习方法》。

84dce9f9af5095016458fb48fe3c2769.png

杨以钦:

清华大学自动化系在读三年级博士生。现导师是赵千川教授。博士期间的研究方向是离线强化学习的任务泛化性研究。杨以钦已在AAMAS、NeurIPS和ICLR上发表论文3篇。本篇论文发现了一种适应性和拓展性强的离线强化学习方法,并被评为Spotlight。

01

 背   景 

深度强化学习作为实现智能自主决策的核心途径之一,在许多领域已经取得了巨大的成功。深度强化学习方法的巨大成功很大一部分归功于在仿真环境中大量的探索和试错,只有收集到足够的交互经验,智能体才能利用其对环境的知识来改进和提升其策略性能。然而&#x

  • 2
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值