内容简介
强化学习在量子控制方面有许多应用,例如量子最优控制、动力学退耦合、量子态制备。但是想要充分的发挥强化学习的作用,目前有两个主要的阻碍。第一个是通过tomography来获得最后的态演化结果作为强化学习的样本,这往往需要大量的资源耗费。第二个是如何设计一个合适的reward function来全面的衡量整个演化过程,从而使强化学习的Agent能够学习到完善的决策方法。本次介绍了两篇文章,其中一篇给出了一种单次测量作为强化学习样本的态制备方法,并证明这种方法也能够很好的实现态制备。第二篇文章则给出了一种全面考虑强化学习在实现量子控制中的各个方面损失的奖励函数设计方法
相关论文1
标题:Experimental Deep Reinforcement Learning for Error-Robust Gate-Set Design on a Superconducting Quantum Computer
作者:Yuval Baum, Mirko Amico, Sean Howell, Michael Hush, Maggie Liuzzi, Pranav Mundada, Thomas Merkh, Andre R.R. Carvalho, and Michael J. Biercuk
期刊:PRX Quantum(2021年11月4日)
相关论文2
标题:Model-Free Quantum Control with Reinforcement Learning
作者:V. V. Sivak, A. Eickbusch, H. Liu, B. Royer, I. Tsioutsios, and M. H. Devoret
期刊:Physical Review X(2022年3月28日)
相关论文3
标题:Universal quantum control through deep reinforcement learning
作者:Murphy Yuezhen Niu, Sergio Boixo, Vadim N. Smelyanskiy and Hartmut Neven
期刊:npj Quantum Information(2019年4月23日)
01 强化学习简介
1. 一个完整的强化学习算法主要由Agent,Environment,State,Action,Reward组成。Agent执行了某个动作之后,Environment根据动作转换到新的一个State,并根据一定的规则给出一个Reward。之后,Agent根据得到的新State与Reward更新自己的决策过程并给出一个新的Action,如此循环往复,直到完成整个控制过程。
2. 强化学习能够使用的前提是环境以及基于环境的整个决策过程要满足马尔可夫决策过程。
02 Experimental Deep Reinforcement Learning for Error-Robust Gate-Set Design on a Superconducting Quantum Computer
简介:该文章给出了强化学习在量子控制上的一个典型的过程,描述了通过强化学习来进行量子门实现的实验过程。该文章通过tomography来获得每次演化完成之后的量子态,再通过fidelity以及线路深度作为reward来对agent进行优化。同时,控制过程将整个门时间T划分为N个小时间段,每个时间段内由一个不含时的控制哈密顿来进行演化。
(来源:相关论文1)
该文章选择了但比特门Rx(π/2)门和两比特门ZX(−π/2)作为实验对象。
对于Rx(π/2),该文章选择了24qubit的Clifford randomized benchmarking 来衡量。即,用Rx(π/2)门和虚拟的Z旋转来实现24比特的Clifford群中的门,最后通过该门的保真度来估计每个但比特门的保真度。
该门的保真度随着构成Clifford群中的门所需基本门长度增加的结果如下:
(来源:相关论文1)
对于两比特门则通过两种方式来衡量其保真度以及鲁棒性。一是直接将ZX门直接或组成SWAP门反复使用,然后测量它的保真度变化;二是同样通过把Clifford randmized benchmarking来衡量多个基本门组合后的平均保真度。结果如下:
(来源:相关论文1)
在ZX门的实验中,重复使用的实验总共持续了25天,在这25天中,在没有经过其他校准的情况下将ZX门的保真度保证在了99.3%之上。
但是需要注意的是,这样强化学习过程非常耗时。由于强化学习是串行一步步实现完整控制的过程,并且控制中的每一步之后的state都要进行保存作为sample来帮助下一步决策的给出。所以在实验过程中,每一步Agent给出action后,演化之后都要做tomography。而每一次tomography在该文章中都需要1024次测量。同时,为了供给模型足够的训练数据,这样完整的一次过程进行多次重复。所以总的来说会比较耗费时间。
03 Model-Free Quantum Control with Reinforcement Learning
简介:该文章提出了一种基于强化学习的量子态制备方法。该文章基于测量反馈的酉演化系统平台。该文章的创新点在于量子环境对于Agent的反馈不依赖于复杂的tomography之后的fidelity估计,而是将一次简单测量作为一个Reward。这样的Reward在实验上会更加的可行,本文通过几个典型的态来演示将单次测量作为样本来让强化学习进行优化的方法是可行的。
整个实验设计包括由经典神经网络构成的Agent,由一系列含参量子门作用在harmonic oscillator以及附属的ancilla qubit上的Environment构成。在这个Environment中最具有创新点的部分就是图中的蓝色部分的Reward线路。因为有Reward线路的存在,使得由粉色线路生成的最终态不需要tomography就可以转化为Reward。
(来源:相关论文2)
在具体线路设计部分,该文章使用了相位门SNAP(ϕ)和位移门D(α)为基本门来构造参数化量子线路,其形式为:
当然也可以改为任何可以实现态制备的参数化量子线路形式。
对于Fock态的态制备实验
(来源:相关论文2)
其中Reward线路中第一个测量m1是{|g><g|,I−|g><g|}这样一组测量基。在理想情况下,Ancilla在演化完之后应该是不变的,但是由于实验中的误差与噪声所以第一个测量是用于排除演化后发生变化的Ancilla。测量之后,Ancilla被作用了一个受控πpulse,控制条件是oscillator上有目标态|n>。最后一个测量则是|g>被作用πpulse之后的态形成的一组测量基,用于给出reward。
上述Fock态的制备与Nelder-Mead和 simulated anneling方法进行了对比,得到了比较好的结果。
任意态制备
(来源:相关论文2)
任意态中的reward线路详细的门如下:
而在reward线路中的控制门的形式如下:
用于投影测量的测量算子形式如下:
对于任意态的保真度估计,该文章基于在相空间的蒙特卡罗重要采样定理得到了对保真度的估计,又称"Wigner reward"如下:
该文章将cat state 和 binomial code state作为态制备对象进行了数值模拟实验,并在1,10,1000三个不同的相空间点上对Agent学习到的policy进行了测试.
04 Universal quantum control through deep reinforcement learning
简介:谷歌的团队将这些优势应用在量子控制优化问题上,提出适合谷歌量子计算平台的一种兼顾量子门保真度、积累泄露误差、门时间以及控制边界条件的基于强化学习的量子控制算法,可以同时优化量子计算的速度和精准性,用于弥补泄露和随机控制错误带来的问题。
在量子系统演化的过程中,对量子系统产生的噪声一方面来自于随机控制误差;另一方面来自于量子系统与环境的耦合。其中前者在传统的方法中往往使用需要大量策略的闭环控制或通过对控制噪声的谱进行分析从而进行开环控制,而随着量子比特数的增加,这二者所消耗的资源都会快速增长,从而变得不再实用。当量子系统随着量子比特数的增加而不可避免的增大时,后者的影响就变得不可避免了。量子系统与环境的耦合主要会带来两种信息的泄露:相干泄露与非相干泄露。同时,量子系统的门保真度也还受到门时长等因素的影响。因此,本文基于上述的情况给出了综合以下几个条件得到了一个激励函数。
1.需要考虑的是优化后门的保真度,我们用
作为对门保真度的衡量。
2.需要考虑上述的泄露误差所导致的门保真度的损失。我们通过 Schrieffer-Wolff transformation 来计算其误差的上界大小。首先我们将哈密顿量拆分为三个部分:与时间无关的对角系统哈密顿量
,与环境子空间耦合的块对角含时哈密顿量
,以及环境中不同子空间的相互耦合的非块对角哈密顿量
。接着我们将后两项重写为强度为ϵ的微扰项,则整个哈密顿量变为:
。若我们假设变换中的变换矩阵S的泰勒展开可以为
,且
,则我们可以得到变换后哈密顿量中的对角部分与非对角部分在三阶近似下的结果为:
由此,我们就可以估算
导致的由于量子系统能量耗散到超过量子比特系统的更高能级的损耗总值。我们设
,则耗散的能量总值为:
3. 由于微波脉冲和g脉冲在门作用的开始与结束时要为0所以还要加上惩罚项:
4. 对于门长时间来说,越短的门实现时间越有利于真实量子设备的实现,所以对于总演化时间T我们也加上惩罚
最后,再在上述每一项前面加上每一惩罚项的影响系数,就得到了最后的奖励函数:
为了验证改激励函数的效果,本文作者在基于谷歌gmon-architecture的transmon量子架构的哈密顿量:
上实现如下形式的两比特门最优控制:
其整个模型示意图如下图所示:
(来源:相关论文3)
对于门N(2.2,2.2,π/2)进行了数值模拟实验,最后门保真度随控制噪声强度变化结果如下:
(来源:相关论文3)
05 总结
这三篇文章从实验上实现,如何快速sample以及最后如何设计考虑全面的reward三个反面全面描述了强化学习再量子控制上的实现方式。对于态制备问题,我们可以设计对应的reward circuit来将复杂的tomography转化为简单的投影测量,依然能够得到很好的表现。对于最优控制,给出了一种全面考虑保真度、耗散以、门时间长度以及控制合理性的reward函数。通过这三篇文章可以较为全面的完成对强化学习进行量子控制关键技术点的设计。