如何确保强化学习可靠?苏黎世联邦理工Turchetta, Matteo博士论文《 强化学习中的安全性和鲁棒性》...

60991e26f6042469e8c0fab35ff917ae.png

来源:专知
本文为论文介绍,建议阅读5分钟本文研究了小数据环境下由不准确的模型可能导致的RL不安全行为。

1831e333755105010d93a315dd8cb501.png

近年来,RL的显著成就使其在人工智能研究的前沿占有一席之地。最关键的是,这些结果大多是在模拟环境中获得的,在模拟环境中,不良行为不会产生有害后果。然而,为了释放RL的全部潜力,我们希望在现实世界中部署它。虽然这扩大了RL有益影响的范围,但也放大了其有害行为的后果。因此,我们必须理解和解决可能导致RL智能体在现实世界中做出潜在破坏性决策的原因。

https://www.research-collection.ethz.ch/handle/20.500.11850/540581

本文研究了小数据环境下由不准确的模型可能导致的RL不安全行为。特别地,它关注的是对分布偏移的鲁棒性问题。不过度拟合训练数据,而泛化到以前未见过的环境条件,以及安全探索,即。,在训练过程中安全获取数据。

我们首先从线性控制理论引入鲁棒性指标的无模型近似。我们利用我们的方法为Furuta摆设计控制策略,并在模拟到现实和硬件实验中演示了它们的鲁棒性,其中包括一个显著的分布位移。

在此基础上,研究了将安全表示为一组未知光滑约束的目标导向安全勘探问题。针对这一问题,我们提出了一种保证安全性和完整性的算法,并在模拟实验中表明,该算法在样本效率方面较现有方法有明显提高。然后,我们将其扩展到自适应控制问题,一类与外生变量引起的分布位移有关的经典控制问题。我们部署我们的算法来控制旋转轴驱动器在不断变化的环境。

最后,我们提出了一个新的框架,将先验知识融入到安全勘探问题中,使我们可以解除以前的方法所做的许多假设,如平滑性。为该框架提供了安全保证,并将其与深度强化学习智能体相结合,以在具有挑战性的环境中安全地训练控制策略。

47222b6385edac4a166640a244100a8c.png

b537ffa034de1ffebcf1e2fc513a20f3.png

7b89d5479c9ecef65ace2d66c0fc8bab.png

841754e83df58e24db72fc46209ca75a.png

31608127fe14fefb0255d0dd128f6712.png

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值