#今日论文推荐# 【ICML2022】鲁棒强化学习的策略梯度法

论文介绍了一种新的鲁棒强化学习策略梯度算法,具有全局最优收敛和低复杂度。方法针对模型失配问题,通过稳健策略设计实现环境适应性。研究覆盖了直接策略参数化、平滑鲁棒策略、无模型环境及行为评论等多个方面,并展示了在表格环境下的收敛性和样本效率。
摘要由CSDN通过智能技术生成

#今日论文推荐# 【ICML2022】鲁棒强化学习的策略梯度法

本文提出了一种具有全局最优保证和复杂度分析的策略梯度法,用于模型失配情况下的鲁棒强化学习。鲁棒强化学习是学习一种鲁棒的策略来模拟模拟环境和真实环境之间的不匹配。我们首先建立了鲁棒策略梯度,它适用于任何可微参数策略类。我们证明了所提出的稳健策略梯度方法在直接策略参数化下渐近收敛于全局最优。我们进一步开发了一种平滑鲁棒的策略梯度方法,并表明要实现-全局最优,复杂度为O(e−3)。然后我们将我们的方法扩展到一般的无模型环境,并设计了具有可微参数策略类和价值函数的鲁棒行为-评论方法。我们进一步刻画了它在表格设置下的渐近收敛性和样本复杂性。最后,我们提供了仿真结果,以证明我们的方法的鲁棒性。

论文题目:Policy Gradient Method For Robust Reinforcement Learning
详细解读:https://www.aminer.cn/research_report/628af9457cb68b460fbf5ae9?download=falseicon-default.png?t=M4ADhttps://www.aminer.cn/research_report/628af9457cb68b460fbf5ae9?download=false
AMiner链接:https://www.aminer.cn/?f=cs

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值