如何确保强化学习可靠？苏黎世联邦理工Turchetta, Matteo博士论文《强化学习中的安全性和鲁棒性》...

最新推荐文章于 2024-03-21 10:15:21 发布

数据派THU

最新推荐文章于 2024-03-21 10:15:21 发布

阅读量203

点赞数

文章标签：算法人工智能机器学习深度学习 python

原文链接：https://mp.weixin.qq.com/s?__biz=MzI1MjQ2OTQ3Ng==&mid=2247584282&idx=3&sn=f2a49f267addd9a6506d4de0454fc6ce&chksm=e9e08391de970a871c1cbbd751e2206686e9d8b02461a342d4fc850799c03e4b6d9ffb1619cb&scene=126&&sessionid=0

版权

来源：专知
本文为论文介绍，建议阅读5分钟本文研究了小数据环境下由不准确的模型可能导致的RL不安全行为。

近年来，RL的显著成就使其在人工智能研究的前沿占有一席之地。最关键的是，这些结果大多是在模拟环境中获得的，在模拟环境中，不良行为不会产生有害后果。然而，为了释放RL的全部潜力，我们希望在现实世界中部署它。虽然这扩大了RL有益影响的范围，但也放大了其有害行为的后果。因此，我们必须理解和解决可能导致RL智能体在现实世界中做出潜在破坏性决策的原因。

https://www.research-collection.ethz.ch/handle/20.500.11850/540581

本文研究了小数据环境下由不准确的模型可能导致的RL不安全行为。特别地，它关注的是对分布偏移的鲁棒性问题。不过度拟合训练数据，而泛化到以前未见过的环境条件，以及安全探索，即。，在训练过程中安全获取数据。

我们首先从线性控制理论引入鲁棒性指标的无模型近似。我们利用我们的方法为Furuta摆设计控制策略，并在模拟到现实和硬件实验中演示了它们的鲁棒性，其中包括一个显著的分布位移。

在此基础上，研究了将安全表示为一组未知光滑约束的目标导向安全勘探问题。针对这一问题，我们提出了一种保证安全性和完整性的算法，并在模拟实验中表明，该算法在样本效率方面较现有方法有明显提高。然后，我们将其扩展到自适应控制问题，一类与外生变量引起的分布位移有关的经典控制问题。我们部署我们的算法来控制旋转轴驱动器在不断变化的环境。

最后，我们提出了一个新的框架，将先验知识融入到安全勘探问题中，使我们可以解除以前的方法所做的许多假设，如平滑性。为该框架提供了安全保证，并将其与深度强化学习智能体相结合，以在具有挑战性的环境中安全地训练控制策略。

数据派THU

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
如何确保强化学习可靠？苏黎世联邦理工Turchetta, Matteo博士论文《强化学习中的安全性和鲁棒性》...

来源：专知本文为论文介绍，建议阅读5分钟本文研究了小数据环境下由不准确的模型可能导致的RL不安全行为。近年来，RL的显著成就使其在人工智能研究的前沿占有一席之地。最关键的是，这些结果大多是在模拟环境中获得的，在模拟环境中，不良行为不会产生有害后果。然而，为了释放RL的全部潜力，我们希望在现实世界中部署它。虽然这扩大了RL有益影响的范围，但也放大了其有害行为的后果。因此，我们必须理解和解决可能导致...
复制链接

扫一扫