【阅读随笔】Safe reinforcement learning under temporal logic with reward design and quantum action selecti

ALL 2 WELL

已于 2023-07-03 19:32:46 修改

阅读量410

点赞数

分类专栏：时序逻辑文章标签：量子计算算法形式化控制学习

于 2023-06-27 20:19:01 首次发布

本文链接：https://blog.csdn.net/WSQ_2000/article/details/131417959

版权

时序逻辑专栏收录该内容

22 篇文章 10 订阅

订阅专栏

该文提出了结合量子计算的强化学习方法，特别是利用Grover搜索算法优化动作选择，以提升安全性和效率。文章关注于在满足临时逻辑（LTL）约束的同时，设计安全奖励函数和基于嵌入式极限确定性博弈自动机（E-LDGBA）的模型，以确保智能体在无限和有限时间域的任务中避免不安全状态。

摘要由CSDN通过智能技术生成

今天读一篇来自Nature最水子刊SR的作品，名字中的量子动作选择听起来非常高大上，来看看是个什么东西

[1] M. Cai, S. Xiao, J. Li, and Z. Kan, “Safe reinforcement learning under temporal logic with reward design and quantum action selection,” Sci Rep, vol. 13, no. 1, Art. no. 1, Feb. 2023, doi: 10.1038/s41598-023-28582-4.

Outline

reward shaping - 避免稀疏奖励
safety value functions
quantum action selction
Embedded Limit-Deterministic Generalized Buchi Automaton
tasks of infinite and finite horizons

Introduction

安全强化学习

安全强化学习是指在学习过程中避免访问不安全状态。（Comment: 在仿真场景下，这个概念其实并没有讨论的意义，只有在真实的物理环境下进行学习时才有必要讨论安全问题。）当前的方法要么对系统假设过强、要么仅考虑安全而不考虑任务进度。

基于抽象的MDP

[16] Li, X., Serlin, Z., Yang, G. & Belta, C. A formal methods approach to interpretable reinforcement learning for robotic planning. Sci. Robot. 4 (37), (2019).
这篇文章设计了基于鲁棒度的自动机并结合了CBF来辅助学习，但是只考虑有限时域的任务

[17] Hasanbeig, M., Abate, A., & Kroening, D. Cautious reinforcement learning with logical constraints. AAMAS’20: Proceedings of the 19th International Conference on Autonomous Agents and MultiAgent Systems, 483–491 (2020).
使用LDGBA来记录LTL完成状态，使用model-based safe padding技术防止系统进入不安全状态，但是不能有效描述accepting sets

量子计算

机器学习与量子计算的结合称为QML，研究的是如何将数据编码为量子状态并利用量子系统的叠加属性解决具体问题。在强化学习中，可以使用量子计算加速神经网络，从而加入DRL的学习过程。

本文工作

提出了一种数学上严谨的reward设计规则
设计model-based safe padding来提高安全性，以一定的概率下界防止智能体落入坏状态
用E-LDGBA编码无限时域的LTL
提出safety value function与传统的value function相结合
提出了一种基于势函数的reward-shaping方法来避免稀疏奖励
使用量子计算方法改进了传统RL的e-greedy动作选择

Problem Formulation

Preliminaries

在问题陈述前，先介绍一下本文中涉及的一些概念

Quantum computing

量子比特：0/1状态的叠加（薛定谔）状态，只有当测量的时候其0,1值才发生坍缩 $\left|q_1\right>=\alpha_0\left|0\right>+\alpha_1 \left|1\right>$ ，其中 $\alpha_0,\alpha_1$ 是两个复数，其模的平方表示坍缩为0或1的概率
量子状态：由n个量子比特表示的一个状态变量，有 $2^n$ 中坍缩可能，因此可写为以下形式 $\left|\psi_n\right>=\left|q_1q_2\dots q_n\right>=\sum_{k=0}^{2^n-1}a_k\left|k\right>$
量子寄存器：传统的n位寄存器在一个时刻能够存储一种2进制数组合，而量子寄存器神奇在能够储存所有的 $2^n$ 种组合。
对比特，我们有与或非以及各种其他的门操作，而对于量子比特，同样存在各种门：
- Hadamard门(简称H门)：能够将0或1转化为等概率的叠加态
- 非门(X): $X\left|0\right>=\left|1\right>, X\left|1\right>=\left|0\right>$
- 异或门(CNOT, controlled-NOT): 第一个量子比特控制对第二个量子比特是否取反： $CNOT\left|01\right>=\left|01\right>, CNOT\left|11\right>=\left|10\right>$

MDP

这里MDP的定义为 $\mathcal M = (S,A,p_S,s_0,\Pi, L)$
其中 $\Pi$ 是原子命题集合， $L$ 是将状态映射到一个 $\Pi$ 的子集的函数

动作选择为确定性的函数 $\xi$ ，动作序列 $\xi_0\xi_1\dots$ 生成轨迹 $\mathbf s=s_0s_1s_2\dots$

这里提出一个比较特殊的点就是，状态转移概率对于任意状态都是为正的

为了处理复杂的时序任务，推导的控制策略依赖于现在与过去状态，但记忆有限

强化学习

本文基于Q-learning算法，基于贝尔曼方程更新Q值
在这里插入图片描述

LDGBA

LTL公式能够用一个LDGBA等效表示， $\mathcal A=(Q,\Sigma,\delta,q_0,F)$ 的状态集合 $Q$ 能够分为确定状态集合 $Q_D$ 和非确定状态集合 $Q_N$ 两部分, $Q_D$ 内状态间的转移概率均为1， $Q_N$ 到 $Q_D$ 间转移需要接受 $\epsilon-transition$ 才有机会发生，且所有的接受态 $F\subseteq Q_D$