【阅读随笔】Safe reinforcement learning under temporal logic with reward design and quantum action selecti

该文提出了结合量子计算的强化学习方法,特别是利用Grover搜索算法优化动作选择,以提升安全性和效率。文章关注于在满足临时逻辑(LTL)约束的同时,设计安全奖励函数和基于嵌入式极限确定性博弈自动机(E-LDGBA)的模型,以确保智能体在无限和有限时间域的任务中避免不安全状态。
摘要由CSDN通过智能技术生成

今天读一篇来自Nature最水子刊SR的作品,名字中的量子动作选择听起来非常高大上,来看看是个什么东西

[1] M. Cai, S. Xiao, J. Li, and Z. Kan, “Safe reinforcement learning under temporal logic with reward design and quantum action selection,” Sci Rep, vol. 13, no. 1, Art. no. 1, Feb. 2023, doi: 10.1038/s41598-023-28582-4.

Outline

  • reward shaping - 避免稀疏奖励
  • safety value functions
  • quantum action selction
  • Embedded Limit-Deterministic Generalized Buchi Automaton
  • tasks of infinite and finite horizons

Introduction

安全强化学习

安全强化学习是指在学习过程中避免访问不安全状态。(Comment: 在仿真场景下,这个概念其实并没有讨论的意义,只有在真实的物理环境下进行学习时才有必要讨论安全问题。)当前的方法要么对系统假设过强、要么仅考虑安全而不考虑任务进度。

基于抽象的MDP

[16] Li, X., Serlin, Z., Yang, G. & Belta, C. A formal methods approach to interpretable reinforcement learning for robotic planning. Sci. Robot. 4 (37), (2019).
这篇文章设计了基于鲁棒度的自动机并结合了CBF来辅助学习,但是只考虑有限时域的任务

[17] Hasanbeig, M., Abate, A., & Kroening, D. Cautious reinforcement learning with logical constraints. AAMAS’20: Proceedings of the 19th International Conference on Autonomous Agents and MultiAgent Systems, 483–491 (2020).
使用LDGBA来记录LTL完成状态,使用model-based safe padding技术防止系统进入不安全状态,但是不能有效描述accepting sets

量子计算

机器学习与量子计算的结合称为QML,研究的是如何将数据编码为量子状态并利用量子系统的叠加属性解决具体问题。在强化学习中,可以使用量子计算加速神经网络,从而加入DRL的学习过程。

本文工作

  • 提出了一种数学上严谨的reward设计规则
  • 设计model-based safe padding来提高安全性,以一定的概率下界防止智能体落入坏状态
  • 用E-LDGBA编码无限时域的LTL
  • 提出safety value function与传统的value function相结合
  • 提出了一种基于势函数的reward-shaping方法来避免稀疏奖励
  • 使用量子计算方法改进了传统RL的e-greedy动作选择

Problem Formulation

Preliminaries

在问题陈述前,先介绍一下本文中涉及的一些概念

Quantum computing

  • 量子比特:0/1状态的叠加(薛定谔)状态,只有当测量的时候其0,1值才发生坍缩 ∣ q 1 > = α 0 ∣ 0 > + α 1 ∣ 1 > \left|q_1\right>=\alpha_0\left|0\right>+\alpha_1 \left|1\right> q1=α00+α11,其中 α 0 , α 1 \alpha_0,\alpha_1 α0,α1是两个复数,其模的平方表示坍缩为0或1的概率
  • 量子状态:由n个量子比特表示的一个状态变量,有 2 n 2^n 2n中坍缩可能,因此可写为以下形式 ∣ ψ n > = ∣ q 1 q 2 … q n > = ∑ k = 0 2 n − 1 a k ∣ k > \left|\psi_n\right>=\left|q_1q_2\dots q_n\right>=\sum_{k=0}^{2^n-1}a_k\left|k\right> ψn=q1q2qn=k=02n1akk
  • 量子寄存器:传统的n位寄存器在一个时刻能够存储一种2进制数组合,而量子寄存器神奇在能够储存所有的 2 n 2^n 2n种组合。
  • 对比特,我们有与或非以及各种其他的门操作,而对于量子比特,同样存在各种门:
    • Hadamard门(简称H门):能够将0或1转化为等概率的叠加态
    • 非门(X): X ∣ 0 > = ∣ 1 > , X ∣ 1 > = ∣ 0 > X\left|0\right>=\left|1\right>, X\left|1\right>=\left|0\right> X0=1,X1=0
    • 异或门(CNOT, controlled-NOT): 第一个量子比特控制对第二个量子比特是否取反: C N O T ∣ 01 > = ∣ 01 > , C N O T ∣ 11 > = ∣ 10 > CNOT\left|01\right>=\left|01\right>, CNOT\left|11\right>=\left|10\right> CNOT01=01,CNOT11=10

MDP

这里MDP的定义为 M = ( S , A , p S , s 0 , Π , L ) \mathcal M = (S,A,p_S,s_0,\Pi, L) M=(S,A,pS,s0,Π,L)
其中 Π \Pi Π是原子命题集合, L L L是将状态映射到一个 Π \Pi Π的子集的函数

动作选择为确定性的函数 ξ \xi ξ,动作序列 ξ 0 ξ 1 … \xi_0\xi_1\dots ξ0ξ1生成轨迹 s = s 0 s 1 s 2 … \mathbf s=s_0s_1s_2\dots s=s0s1s2

这里提出一个比较特殊的点就是,状态转移概率对于任意状态都是为正的

为了处理复杂的时序任务,推导的控制策略依赖于现在与过去状态,但记忆有限

强化学习

本文基于Q-learning算法,基于贝尔曼方程更新Q值
在这里插入图片描述

LDGBA

LTL公式能够用一个LDGBA等效表示, A = ( Q , Σ , δ , q 0 , F ) \mathcal A=(Q,\Sigma,\delta,q_0,F) A=(Q,Σ,δ,q0,F)的状态集合 Q Q Q能够分为确定状态集合 Q D Q_D QD和非确定状态集合 Q N Q_N QN两部分, Q D Q_D QD内状态间的转移概率均为1, Q N Q_N QN Q D Q_D QD间转移需要接受 ϵ − t r a n s i t i o n \epsilon-transition ϵtransition才有机会发生,且所有的接受态 F ⊆ Q D F\subseteq Q_D FQD

LDBGA转移所留下的轨迹写作 q = q 0 q 1 … \mathbf q=q_0 q_1\dots q=q0q1,令 inf ⁡ ( q ) \inf(\mathbf q) inf(q)指代 q \bf q q中无限循环的后缀,则这个后缀必须和接收态有交集才被接收

Problem formulation

本文解决的问题为最大化在控制策略下轨迹满足goal LTL的概率,同时在学习过程中保持safe LTL的满足
在这里插入图片描述

Automaton-based reward design

[15]显示LDGBA的状态信息不足以让智能体找到理想的确定性策略,因此这里提出E-LDBGA的概念来给信息增加几个维度。

Embedded LDGBA

E-LDGBA在LDGBA的基础上增广了2个变量:

  • T T T叫做tracking frontier set: 用来记录还有哪几个接收状态没有被访问
  • B \mathcal B B:将所有的接收状态被访问一次记为一轮,用一个布尔变量来标记该轮的完成情况

这两个变量与系统状态同步更新,其更新规则如下所示,其中 F j F_j Fj为某个接收状态

在这里插入图片描述

E-LDGBA的定义如下所示,新的自动机状态为 ( q , T ) (q,T) (q,T)
在这里插入图片描述

Embedded Product MDP

将抽象系统的MDP与约束MDP做叉乘,我们可以得到乘积MDP

  • 叉乘系统的状态为 x = ( s , l , q , T ) x=(s,l,q,T) x=(s,l,q,T) 包含了物理状态、标签、自动机状态以及frontier set
  • 叉乘系统的接受态子集集合 F P F^P FP

Base reward

当且仅当当前状态处于 F U P F_U^P FUP内的时候才能获得奖励,
在这里插入图片描述

Safety value functions

Quantum action selection

Grover搜索算法

❓ Grover算法是一种在无序序列中进行搜索的量子计算方法,复杂度仅有 O ( N ) O(\sqrt{N}) O(N ),能用来加速传统q-learning中的e-greedy动作选择。

Simulations and discussions

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值