AMiner论文推荐

RecoveryRL是一种新的安全强化学习算法,旨在解决在不确定环境中学习新任务时的安全挑战。它通过利用离线数据来识别危险区域,并采用两个策略:任务策略优化奖励,恢复策略确保在约束被违反时引导智能体回到安全状态。在多个仿真任务和物理实验中,RecoveryRL表现出优于其他五种安全RL方法的性能,提高了效率并实现了任务成功率与约束满足之间的有效平衡。
摘要由CSDN通过智能技术生成

论文名称:Recovery RL: Safe Reinforcement Learning with Learned Recovery Zones论文链接:https://www.aminer.cn/pub/5f9fcda491e0112e85ce8fe9?f=cs
安全仍然是阻止在现实世界中广泛使用RL的主要障碍:在不确定的环境中学习新任务需要进行广泛的探索,而安全则需要进行有限的探索。本文提出了Recovery RL,该算法可通过(1)利用离线数据来了解违反约束的区域来导航此折中前策略学习和(2) 分离跨两个策略提高任务性能和约束满意度的目标:仅优化任务奖励的任务策略,以及在可能违反约束条件时将智能体引导至安全状态的恢复策略。本文在6个仿真域上评估了Recovery RL,包括两个接触丰富的操纵任务和一个基于图像的导航任务,以及在物理机器人上的基于图像的避障任务。本文将Recovery RL与5种先前的安全RL方法进行了比较,后者通过约束优化或奖励整形共同优化了任务性能和安全性,发现Recovery RL在所有领域的性能均优于次优方法。结果表明,Recovery RL在约束域和任务成功之间进行权衡,仿真领域的效率提高2至20倍,而物理实验的效率提高3倍。
AMiner,让AI帮你理解科学!https://www.aminer.cn
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值