学习笔记《Variational Quantum State Eigensolver》

文章介绍了VQSE算法,一种用于学习量子态最大特征值和门序列的方法。通过变分法定义代价函数,不断优化参数以最小化误差。详细阐述了代价函数的意义,包括估计特征值和特征向量的误差。实验结果对比了全局、局部和适定性代价函数在不同量子比特数下的性能,显示了适应性哈密顿量在高精度要求时的优势。
摘要由CSDN通过智能技术生成


前言

关于阅读《Variational Quantum State Eigensolver》(M. Cerezo, Kunal Sharma, Andrew Arrasmith, and Patrick J. Coles. “Variational Quantum State Eigensolver.” arXiv preprint arXiv:2004.01372 (2020).)的一些理解与推导


一、文章简介

1.文章主要内容

主要考虑的是矩阵为密度算子的情形。通过变分量子态特征提取器(Variational Quantum State Eigensolver,VQSE)来学习量子态𝜌的最大特征值和门序列V来制备相应的特征向量。

2.文章主要方法

变分量子态特征求解器(VQSE)通过在对角化和优化之间建议来定义代价函数𝐶(𝜃)=𝑇𝑟[𝐻𝑉(𝜃)𝜌𝑉^† (𝜃)]=𝑇𝑟(𝐻𝜌 ̃)来计算预测值和实际值之间的差距,然后不断优化参数𝜃,使代价函数𝐶(𝜃)最小化。从而使估计的特征值(特征向量)与实际特征值(特征向量)的误差随着优化的次数而逐渐减小。

二、VQSE算法中采用的代价函数

1.代价函数

C ( θ ) ≡ ⟨ H ⟩ = T r [ H V ( θ ) ρ V † ( θ ) ] C(\theta) \equiv \left\langle H \right\rangle = Tr\left\lbrack HV(\theta)\rho V^{\dagger}(\theta) \right\rbrack C(θ)H=Tr[HV(θ)ρV(θ)]

其中, H H H是一个 n n n 量子比特的哈密顿量,且在标准基下是一个对角阵,其特征能量和相应的特征向量分别依次为 { E k } \left\{ E_{k} \right\} {Ek} { e k } \left\{e_{k} \right\} {ek}(其中 e k = e k 1 ⋯ e k n e_{k} = e_{k}^{1}\cdots e_{k}^{n} ek=ek1ekn 𝑘 = 1 , ⋯ , 2 𝑛 𝑘=1,⋯,2^𝑛 k=1,,2n)。此外,假设本征能量是非负的,并且按照递增顺序排列,即 E k ≤ E k + 1 E_{k} \leq E_{k + 1} EkEk+1. 𝑉 ( θ ) 𝑉(\theta) V(θ)是一个参数化门序列(酉矩阵,可以通过 𝑉 ( θ ) 𝑉(\theta) V(θ) 生成 ρ \rho ρ的特征向量),令 ρ ∼ = V ( θ ) ρ V † ( θ ) \overset{\sim}{\rho} = V(\theta)\rho V^{\dagger}(\theta) ρ=V(θ)ρV(θ),则

C ( θ ) = ∑ k = 1 2 n E k p k = E ⋅ P ,   C(\theta) = {\sum_{k = 1}^{2^{n}}{E_{k}p_{k} = E \cdot P,~}} C(θ)=k=12nEkpk=EP, , p k = ⟨ e k | ρ ∼ | e k ⟩ p_{k} = \left\langle e_{k} \middle| \overset{\sim}{\rho} \middle| e_{k} \right\rangle pk=ek ρ ek

其中, E = ( E 1 , E 2 , ⋯   ) E = \left( E_{1},E_{2},\cdots \right) E=(E1,E2,)以及 p = ( p 1 , p 2 , ⋯   ) p = \left( p_{1},p_{2},\cdots \right) p=(p1,p2,).

标记令 λ = ( λ 1 , λ 2 , ⋯   ) \mathbf{\lambda} = \left( \lambda_{1},\lambda_{2},\cdots \right) λ=(λ1,λ2,) ρ \rho ρ的特征值,且 ρ \rho ρ ρ ∼ \overset{\sim}{\rho} ρ拥有相同的特征值(下证)。由于厄米算子的特征值使其对角元素 λ ≻ 𝑝 \lambda≻𝑝 λp且有序向量的点积是一个Schur凹函数,则有
C ( θ ) = E ⋅ p ≥ E ⋅ λ = ∑ k E k λ k \mathbf{C}\left( \mathbf{\theta} \right) = \mathbf{E} \cdot \mathbf{p} \geq \mathbf{E} \cdot \mathbf{\lambda} = {\sum_{\mathbf{k}}{\mathbf{E}_{\mathbf{k}}\mathbf{\lambda}_{\mathbf{k}}}} C(θ)=EpEλ=kEkλk
因此,通过 𝑉 ( θ ) 𝑉(\theta) V(θ) ρ \rho ρ的特征基映射到H的特征基可使得 𝐶 ( θ ) 𝐶(\theta) C(θ)最小化。由于后者是标准基,因此该过程相当于对角化 ρ \rho ρ。于是最小化 𝐶 ( θ ) 𝐶(\theta) C(θ)和对角化 ρ \rho ρ密切相关。

相关内容理解与推导

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

2.代价函数的意义

{ ∣ λ ∼ i ⟩ } i = 1 m \{ | {\overset{\sim}{\lambda}}_{i}\rangle \}_{i = 1}^{m} {λi}i=1m和其相关联的 λ ∼ i {\overset{\sim}{\lambda}}_{i} λi分别为估计的特征向量和特征值。定义特征值和特征向量的误差为:
ε λ ≡ ∑ i = 1 m ( λ i − λ ∼ i ) 2 \varepsilon_{\lambda} \equiv {\sum_{i = 1}^{m}\left( {\lambda_{i} - {\overset{\sim}{\lambda}}_{i}} \right)^{2}} ελi=1m(λiλi)2
ε v ≡ ∑ i = 1 m ⟨ δ i | δ i ⟩ \varepsilon_{v} \equiv {\sum_{i = 1}^{m}\left\langle \delta_{i} \middle| \delta_{i} \right\rangle} εvi=1mδiδi
其中, ∣ δ i ⟩ = ρ ∣ λ ∼ i ⟩ − λ ∼ i ∣ λ ∼ i ⟩ \left| \left. \delta_{i} \right\rangle \right. = \rho\left| \left. {\overset{\sim}{\lambda}}_{i} \right\rangle \right. - {\overset{\sim}{\lambda}}_{i}\left| \left. {\overset{\sim}{\lambda}}_{i} \right\rangle \right. δi=ρ λiλi λi.这里 ⟨ δ i | δ i ⟩ \left\langle \delta_{i} \middle| \delta_{i} \right\rangle δiδi量化了 ρ ∣ λ ∼ i ⟩ \rho\left| \left. {\overset{\sim}{\lambda}}_{i} \right\rangle \right. ρ λi正交于 ∣ λ ∼ i ⟩ \left| \left. {\overset{\sim}{\lambda}}_{i} \right\rangle \right. λi的分量。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

三.VQSE的理论基础及算法介绍

Input
一个 n n n量子比特的量子态 ρ \rho ρ,其中 ρ = ∑ k λ k ∣ λ k ⟩ ⟨ λ k ∣ \mathbf{\rho} = {\sum_{{k}}{{\lambda}_{{k}}| \mathbf{\lambda}_{{k}}\rangle \langle \mathbf{\lambda}_{{k}} |}} ρ=kλkλkλk,且满足特征值降序排列,即对任意 𝑘 = 1 , ⋯ , 𝑟 𝑎 𝑛 𝑘 ( ρ ) 𝑘=1,⋯,𝑟𝑎𝑛𝑘(\rho) k=1,,rank(ρ),满足 λ k ≥ λ k + 1 {\lambda}_{{k}} \geq {\lambda}_{{k} + 1} λkλk+1且对于 𝑘 ≥ 𝑟 𝑎 𝑛 𝑘 ( ρ ) 𝑘 \geq𝑟𝑎𝑛𝑘(\rho) krank(ρ),满足 Font metrics not found for font: .;一个整数 m m m;一个初始化参数化酉矩阵 𝑉 ( θ ) 𝑉(\theta) V(θ)

Output
估计量子态 ρ \rho ρ 的前 m m m大特征值,其中 m≪2n,并返回可以从标准基出发生成量子态𝜌 的特征向量的门序列 V(θ).


VQSE算法电路图
VQSE算法电路图
图来源于文献 M. Cerezo, Kunal Sharma, Andrew Arrasmith, and Patrick J. Coles. “Variational Quantum State Eigensolver.” arXiv preprint arXiv:2004.01372 (2020)
VQSE 通过一个混合量子-经典优化循环来训练拟设𝑉(𝜃)的参数𝜃,这一循环中使用一个量子计算机来评估 VQSE 代价函数
( t , θ ) ≡ ⟨ H ( t ) ⟩ = T r [ H ( t ) ρ ∼ ] \left( {t,\theta} \right) \equiv \left\langle {H(t)} \right\rangle = Tr\lbrack H(t)\overset{\sim}{\rho} \rbrack (t,θ)H(t)=Tr[H(t)ρ]

𝐶(𝑡,𝜃)通过将𝑉(𝜃)作用于𝜌并在H(t)上测量得到。循环体中每次量子计算机通过给定的𝜃计算代价函数𝐶(𝑡,𝜃)的值,再由经典计算机确定新𝜃值进入下一循环。最终的全局最小值对应t=1,即
θ o p t = arg ⁡ min ⁡ θ C ( 1 , θ ) \theta_{opt} = {\arg{\min\limits_{\theta}{C(1,\theta)}}} θopt=argθminC(1,θ)

VQSE 的下一步是输出特征值。先作用门序列 𝑉 ( θ 𝑜 𝑝 𝑡 ) 𝑉(\theta_{𝑜𝑝𝑡} ) V(θopt),并在标准基 { ∣ z i ⟩ } \left\{ \left| \left. z_{i} \right\rangle \right. \right\} {zi}下进行测量,从而得到𝜌的特征值。令 Pr ⁡ ( z i ) = ⟨ z i ∣ ρ ∼ ∣ z i ⟩ = λ ∼ i {\Pr( z_{i} )} = \langle z_{i} | \overset{\sim}{\rho} | z_{i} \rangle = {\overset{\sim}{\lambda}}_{i} Pr(zi)=ziρzi=λi为得到 𝑧 𝑖 𝑧_𝑖 zi的概率,则将前 m m m大概率作为𝜌的前m大特征值。

VQSE的最后一步是输出特征向量。给定二进制串 𝑧 𝑖 ∈ 𝑍 𝑧_𝑖\in𝑍 ziZ,则可以通过先作用再作用 X z 1 i ⊗ X z 2 i ⊗ ⋯ ⨂ X z n i X^{z_{1}^{i}} \otimes X^{z_{2}^{i}} \otimes \cdots\bigotimes X^{z_{n}^{i}} Xz1iXz2iXzni再作用 V ( θ o p t ) + V\left( \theta_{opt} \right)^{+} V(θopt)+ ∣ 0 ⟩ ⊗ n \left| \left. 0 \right\rangle \right.^{\otimes n} 0n上来得到。特征向量存储在量子计算机上,我们可以通过采样来提取该信息。
∣ λ ∼ i ⟩ = V ( θ o p t ) + ∣ z i ⟩ | {\overset{\sim}{\lambda}}_{i}\rangle = V\left( \theta_{opt} \right)^{+}\left| \left. z_{i} \right\rangle \right. λi=V(θopt)+zi
∣ z i ⟩ = X z 1 i ⊗ X z 2 i ⊗ ⋯ ⨂ X z n i ∣ 0 ⟩ ⊗ n \left| \left. z_{i} \right\rangle \right. = X^{z_{1}^{i}} \otimes X^{z_{2}^{i}} \otimes \cdots\bigotimes X^{z_{n}^{i}}\left| \left. 0 \right\rangle \right.^{\otimes n} zi=Xz1iXz2iXzni0n

四. 文章中的数值实验结果

文章比较了用全局代价函数 𝐶 𝐺 ( θ ) 𝐶_𝐺 (\theta) CG(θ),局部最优代价函数 𝐶 L ( θ ) 𝐶_L (\theta) CL(θ),以及适定性代价函数的结果。并且展示了用VQSE来估计 n = 4 , 6 , 8 n=4,6,8 n=4,6,8三种量子态的第6大特征值的三种代价函数比较结果图。
在这里插入图片描述
图来源于文献 M. Cerezo, Kunal Sharma, Andrew Arrasmith, and Patrick J. Coles. “Variational Quantum State Eigensolver.” arXiv preprint arXiv:2004.01372 (2020)

绝对误差为 1 ϵ λ \frac{1}{\epsilon_{\lambda}} ϵλ1 。当n=4时,由图中可以得到在 1 ϵ λ \frac{1}{\epsilon_{\lambda}} ϵλ1 小于 1 0 8 10^8 108时,局部和适定性哈密顿性能相同,但当 1 ϵ λ \frac{1}{\epsilon_{\lambda}} ϵλ1大于 1 0 8 10^8 108时,局部测量最好。当n=6和8时,随着 1 ϵ λ \frac{1}{\epsilon_{\lambda}} ϵλ1 的增大,适应性哈密顿量表现最优。

由于现阶段量子计算机是有噪音的,所有制备态的电路得到的都是混合态𝜌。假定𝜌的最大特征值对应特征向量 ∣ ψ ⟩ |\psi\rangle ψ,则VQSE可以用于再纯化𝜌和 ∣ ψ ⟩ |\psi\rangle ψ
这是因为当𝑉(𝜃)的电路深度很浅时,可以通过比较𝜌和 ∣ ψ ⟩ |\psi\rangle ψ的保真度来得到噪音的态𝜎和 ∣ ψ ⟩ |\psi\rangle ψ的更高保真度的估计,于是可以通过态制备电路为VQSE特征向量制备电路来降低误差。


总结

不正确的地方欢迎大家指出!!!

### 回答1: 变分推断(variational inference)是一种用于在概率模型中近似推断潜在变量的方法。在概率模型中,我们通常有观测数据和潜在变量两个部分。我们希望通过观测数据集来估计潜在变量的后验分布。然而,由于计算复杂度的限制,我们无法直接计算后验分布。 变分推断通过近似后验分布为一个简化的分布来解决这个问题。它会选择一个与真实后验分布相似的分布族,然后通过最小化这个分布与真实后验分布之间的差异来得到一个最佳的近似分布。这个问题可以转化为一个最优化问题,通常使用变分推断的一个常用方法是最大化证据下界(evidence lower bound,ELBO)来近似后验分布。 变分推断的一个重要特点是可以处理大规模和复杂的概率模型。由于近似分布是通过简化的分布族来表示的,而不是直接计算后验分布,所以它可以减少计算复杂度。此外,变分推断还可以通过引入额外的约束或假设来进一步简化近似分布,提高计算效率。 然而,变分推断也有一些缺点。因为近似分布是通过简化的分布族来表示的,所以它会引入一定的偏差。此外,变分推断的结果依赖于所选择的分布族,如果分布族选择不合适,可能会导致较差的近似结果。 总之,变分推断是一种用于近似计算概率模型中后验分布的方法,通过选择一个与真实后验分布相似的分布族,并最小化与真实后验分布之间的差异来得到一个最佳的近似分布。它具有处理大规模和复杂模型的能力,但也有一些局限性。 ### 回答2: 转变分推断(variational inference)是一种用于近似求解复杂概率模型的方法。它的核心思想是将复杂的后验分布近似为一个简单的分布,通过最小化这两个分布之间的差异来求解模型的参数。 变分推断通过引入一个简单分布(称为变分分布)来近似复杂的后验分布。这个简单分布通常属于某个已知分布族,例如高斯分布或指数分布。变分推断通过最小化变分分布和真实后验分布之间的差异,来找到最优的参数。 为了实现这一点,变分推断使用了KL散度(Kullback-Leibler divergence)这一概念。KL散度是用来衡量两个概率分布之间的差异的指标。通过最小化变分分布与真实后验分布之间的KL散度,我们可以找到一个最优的变分分布来近似真实后验分布。 变分推断的步骤通常包括以下几个步骤: 1. 定义变分分布:选择一个简单的分布族作为变分分布,例如高斯分布。 2. 定义目标函数:根据KL散度的定义,定义一个目标函数,通常包括模型的似然函数和变分分布的熵。 3. 最优化:使用数值方法(例如梯度下降法)最小化目标函数,找到最优的变分参数。 4. 近似求解:通过最优的变分参数,得到近似的后验分布,并用于模型的推断或预测。 变分推断的优点是可以通过选择合适的变分分布,来控制近似精度和计算复杂度之间的平衡。它可以应用于各种概率模型和机器学习任务,例如潜在变量模型、深度学习和无监督学习等。 总而言之,转变分推断是一种用于近似求解复杂概率模型的方法,通过近似后验分布来求解模型的参数。它通过最小化变分分布与真实后验分布之间的差异来实现近似求解。这个方法可以应用于各种概率模型和机器学习任务,具有广泛的应用价值。 ### 回答3: 变分推断(Variational Inference)是一种用于概率模型中的近似推断方法。它的目标是通过近似的方式来近似估计概率分布中的某些未知参数或隐变量。 在概率模型中,我们通常希望得到后验概率分布,即给定观测数据的情况下,未知参数或隐变量的概率分布。然而,由于计算复杂性的原因,我们往往无法直接计算后验分布。 变分推断通过引入一个称为变分分布的简化分布,将原问题转化为一个优化问题。具体来说,我们假设变分分布属于某个分布族,并通过优化一个目标函数,使得变分分布尽可能接近真实的后验分布。 目标函数通常使用卡尔贝克-勒勒散度(Kullback-Leibler divergence)来度量变分分布与真实后验分布之间的差异。通过最小化这个目标函数,我们可以找到最优的近似分布。在这个优化问题中,我们通常将问题转化为一个变分推断问题,其中我们需要优化关于变分分布的参数。 变分推断的一个优点是可以应用于各种类型的概率模型,无论是具有连续随机变量还是离散变量。此外,变分推断还可以解决复杂的后验推断问题,如变分贝叶斯方法和逐步变分推断等。 然而,变分推断也存在一些限制。例如,它通常要求选择一个合适的变分分布族,并且该族必须在计算上可以处理。此外,变分推断还可能导致近似误差,因为我们将问题简化为一个优化问题,可能会导致对真实后验分布的一些信息丢失。 总而言之,变分推断是一种强大的近似推断方法,可以用于概率模型中的参数和隐变量的估计。它通过引入变分分布来近似计算复杂的后验概率分布,从而转化为一个优化问题。然而,需要注意选择合适的变分分布族和可能的近似误差。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值