论文阅读笔记-Safe Reinforcement Learning via Online Shielding

Abstract

本文关注已知动力模型的情况,目标是验证仿真学到的控制策略能满足一个给定的安全约束。已有的方法受到很多限制-如不可扩展到高维状态空间,且仅能验证固定环境的安全性。本文提出一个基于shielding的方法,当需要的时候用一个候补策略来覆盖当前策略以保证安全性。本文的策略是一种online的策略,在保证高效的计算效率的同时,能在新的环境下仍保证其安全性。

Introduction

在机器人任务中,强化学习是一种非常有潜力的自动策略生成方法,但其无法在实际任务中得到应用的主要的挑战就是无法对学到的策略进行安全性的保证。
本文考虑一种场景:在仿真情况下得到了一个控制策略,我们的目标就是在实际的环境中使用它。假定机器人的动力学方程已知,但环境预先未知(即实际运行之前未知,但在运行时是可以感知到障碍物位置的)。比如一个四翼飞行器的例子,对其动力学系统已经有了很精确的模型,但我们想要在不同的环境(不同的障碍物)中使用它,假设飞机的感知是精确的,即可以感知到障碍物的位置,本文的目标是当面对一个新的环境时,一个给定的学到的策略是安全的。
已有的安全强化学习方法依赖于对需要的安全属性的提前验证,如验证策略的安全性或护盾学习等。主要有几点局限性:一是计算不可行,随着状态空间维度的增加指数级增长。二是已有的方法集中在验证关于固定环境的安全属性,而如果处理一个新的环境,要么提前验证所有可能的环境,要么每次遇到一个新的环境就重新验证。最后,已有的方法主要关注稳定性,即机器人保持在状态空间的某个约束的区域,然后实际上机器人可能会包含更多动态的行为。
Contribution:
1.本文提出一种online的保证安全性的强化学习算法。该算法假定给定一个safe policy(LQR),但只在状态空间的有限部分是安全的。 然后该算法学习一个recovery policy,能够将系统恢复到一个safe policy能够使用的状态,所以候补策略就是先用recovery policy恢复,然后用safe policy控制。最后,本文的算法使用不变式保证recovery policy可以安全的转换机器人状态从而保证整个控制的安全性。
2.在cart-pole和bicycle模型上评估了算法,证明该方法可以用于动态机器人系统的安全性,对随机障碍物场景也可适用。同时评估了方法的可扩展性。

Preliminaries

给定任一控制策略 π ^ \hat\pi π^,本文目标是最小的修改 π ^ \hat\pi π^来得到一个能保证安全性的控制策略 π s h i e l d \pi_{shield} πshield
Dynamics and control:
考虑一个确定的离散时间连续状态的动力系统: x ⊆ R n x x \subseteq R^{nx} xRnx,连续的动作空间 u ⊆ R n u u \subseteq R^{nu} uRnu,动力学方程 f : X ∗ U → X f:X*U \rightarrow X f:XUX,以及一个初始状态分布 d 0 ∈ X d_0 \in X d0X。给定一个控制策略 π : X → U \pi : X \rightarrow U π:XU,用 f π ( x ) = f ( x , π ( x ) ) f^{\pi}(x) = f(x,\pi(x)) fπ(x)=f(x,π(x))表示混合系统。
Remark 2.1
对非多项式的系统,用局部5阶泰勒逼近。
Shielding
定义安全区域: X s a f e ⊆ X X_{safe} \subseteq X XsafeX,其形式为 X s a f e = { x ∈ A ∣ A s a f e x ≤ b s a f e } X_{safe} = \{x\in A | A_{safe}x \leq b_{safe}\} Xsafe={ xAAsafexbsafe},其中 A s a f e ∈ R k ∗ n , b s a f e ∈ R k A_{safe} \in R^{k*n},b_{safe}\in R^k AsafeRkn,bsafeRk
策略 π \pi π的安全性就定义为从初始状态 x 0 x_0 x0开始,无穷时间域上 x t ∈ X s a f e x_t \in X_{safe} xtXsafe
给定一个策略 π ^ : X → U \hat\pi:X\rightarrow U π^:XU,可以是任何形式(多项式,网络…),目标就是要生成一个策略 π s h i e l d \pi_{shield} πshield满足:(i)从初始区域出发的尽可能多的点都是安全的。(ii)获得尽可能高的回报。将他们形式化的定义为:
p s a f e ( π s h i e l d ) = P x 0 ∼ d 0 [ π s h i e l d p_{safe}^{(\pi_{shield})} = P_{x_0\sim d_0}[\pi_{shield} psafe(πshield)=Px0d0[πshield safe starting at x 0 ] x_0] x0]
J π s h i e l d = E x 0 ∼ d 0 [ ∑ t = 0 ∞ γ t R ( x t ) ] J^{\pi_{shield}} = E_{x_0\sim d_0}[\sum_{t=0}^{\infty} \gamma^tR(x_t)] Jπshield=Ex0d0

  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: 多智能体强化学习(Multi-Agent Reinforcement Learning)是一种机器学习技术,用于训练多个智能体在互动环境中进行决策和行动。每个智能体可以观察环境状态和其他智能体的行为,并根据收到的奖励对自己的决策进行调整,以最大化总体收益。多智能体强化学习在协同问题、竞争问题和大规模问题等领域具有广泛的应用。 ### 回答2: 多智能体强化学习(Multi-Agent Reinforcement Learning,MARL)是深度强化学习领域的一种技术,它将强化学习方法扩展到多个智能体之间的交互和协作的场景中。MARL 帮助智能体在无人环境中学习,从而使创造更为灵活和适应性强的系统,这种系统表现出不仅是单个智能体独立行动的复杂性,同时包括了多个智能体之间的协作以及竞争。 与单智能体强化学习(Single-Agent Reinforcement Learning,SARL)不同,MARL 考虑的是多个智能体的行动和策略的交互。在 MARL 中,存在多个互动的智能体,可能会有不同的目标要达成。这些智能体之间相互影响,通过智能体选择行动所得到的奖励进行学习。 此外,多智能体强化学习还需要考虑协调、合作和竞争,通过协调和合作,多个智能体可以互相帮助达成各自的任务,而通过竞争反而会导致学习变得更难。 MARL 可应用于许多实际问题,例如无人机的群体飞行、机器人的协作操作、社交网络中的用户行为模式等。 然而,因为多智能体学习系统的复杂性,MARL 面临许多挑战,例如,在多智能体协作的环境中,互相帮助的智能体容易出现损失函数的不一致,从而导致无法达成协作目标。此外,当一个智能体发现有问题时,它的学习会影响整个系统,因此有效的 MARL 算法需要考虑整个系统的学习效率、稳定性和收敛性。 目前,研究者们已经提出了多种有效的 MARL 模型和算法,并且在一些真实环境(如多机器人系统控制)中也取得了良好的效果。 将来,MARL 算法的研究和应用将会在更广泛的领域发挥作用,从而创造出更加灵活、高效和应变能力强的智能系统。 ### 回答3: 多智能体强化学习是指多个智能体在一个相同的环境中进行协作与竞争,在其长期的行为中通过强化学习方式相互协作,从而最大化总体获得的奖惩值的技术。 在传统的强化学习中,一个智能体通过进行感知、决策和行动,最大化其个体获得的奖赏。但是当多个智能体在一个相同的环境中进行协作或竞争的时候,传统的强化学习方法会出现两个问题。首先,每个智能体采取的行动不仅仅对自己的奖惩产生影响,还会影响其他智能体的奖惩及环境,这会导致局部最优解决方案并不总是能够最大化整个系统的奖惩。其次,过度采取竞争策略可能导致个体之间的合作减少,最终导致全局表现较差。 多智能体强化学习的解决方式之一是CO-OP(协作)方法,即通过一组智能体协同合作以最大化总体奖励,可以采用集体智慧的方式解决问题。CO-OP智能体的一些策略有协调、通信以及分工合作。其他的可靠的策略是基于博弈论的方法,其中智能体会从其决策和行为中推断它们的对手,并相应地调整策略,这种方法的名称是Nash-Equilibrium,并且尚有多种形式的改进策略正在发展之中。 总之,多智能体强化学习是一种通过多个智能体在一个相同的环境中进行协作与竞争,在长期行为中相互协作的方法,以最大化其总体获得的奖惩的技术。多智能体强化学习可以通过CO-OP方法或基于博弈论的方法来解决在传统强化学习中出现的合作和竞争问题。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值