量子人工智能中的量子力学知识

最新推荐文章于 2022-12-09 11:23:54 发布

Stevezhangz

最新推荐文章于 2022-12-09 11:23:54 发布

阅读量807

点赞数

文章标签：人工智能量子力学

本文链接：https://blog.csdn.net/captainAAAjohn/article/details/120113817

版权

本文探讨了量子机器学习如何利用量子并行计算加速数据挖掘，涉及优点如指数级加速、非凸优化、绝热过程优化。章节1介绍了量子学习理论与数据挖掘区别，以及量子计算如何契合机器学习。2章深入剖析了量子力学基础和量子计算模型，3章讲解了量子态、叠加、纠缠等概念及其在量子AI中的应用。

摘要由CSDN通过智能技术生成

参考书籍: Quantum Machine Learning What Quantum Computing Means to Data Mining

Why量子AI，因为特定情况下量子并行计算可实现指数级别的加速，速度是计算水平的一个很重要的指标。量子AI需要量子计算机吗？不一定，可以通过模拟的方式进行量子计算。量子AI有什么缺点，第一二值性决定了数据需要进行特定的处理，第二不是所有的系统都适合量子式计算，对于常规的控制系统cpu更加有优势。
目前，个人认为读这本书需要一点点数学基础去理解。

chapter1

机器学习是一种先验工具，根据算法学习到的知识去预测特定目标,这就是为什么一些学校会先训练学生的统计学能力然后再去做机器学习研究。量子机器学习更离谱，从原子规律的角度出发去模拟机器学习。
量子机器学习有什么优点呢？(1)书中提到由于量子具有并行计算的特点速度会更快(Deutsch,1982)
然后第一章进一步介绍了一些令算法提升指数次方的算法，这里由于我在量子方面也是小白就不一一列举了。(2)机器学习一般都是玩凸优化，凸优化就是将非凸函数转化为凸函数的过程，进一步找到局部最小点，但是实际上大部分问题都是非凸问题，而量子计算适应于解决非凸问题，所以这也算是量子计算的一个优势。为何非凸有优势，非凸更加稳健更容易泛化，没有泛化能力的算法在现实世界中犯错的机会更多。
然后作者还介绍了量子计算的大体思路，利用绝热物理过程可以计算出多维函数最小值。所以这是量子机器学习同经典机器学习之间的区别，一个是通过梯度下降进行优化，另外一个是通过物理过程进行优化。

所以这里做个小结，量子机器学习速度快且适合解决非凸问题，这是它的优势。

1.1 学习理论和数据挖掘

这里首先介绍了大数据和机器学习之间的区别，区别在大数据的范围更加广泛包括数据预处理过程，以及其他涉及到数据的一系列工程、知识。

1.2为什么量子计算能够契合机器学习

机器学习可以被归纳为某种形式的多维优化问题，这可以转化为量子退火或量子计算进行处理。

1.3 异构模型

量子计算机和普通计算机之间存在着一个比较有趣的区别，那就是，量子计算机对于计算密集型的任务比较在行，而常规计算机对于控制型任务比较在行。
在常规计算机中有一个部分叫做加速器，加速器用来处理图像数据，擅长单指令多数据的并行计算，由于它的性能，现在多用于双精度数据计算。但是有些程序不适合在上面运行，比如不能并行计算的程序。所以传统的计算机一般是异构的，各自负责各自地盘。
量子计算机也是一样，控制系统需要常规的计算机所负责的事情，原因本节第一行已经提到。在算法中量子计算也作为一种虚拟的加速器去加速常规的算法。

这里稍作总结，第一量子计算机并不是全能的，所以其中一些零件还是需要源自传统的计算机，第二在程序设计过程中量子算法可以作为虚拟的加速器。

1.4 量子机器学习综述

Grover算法，这个东西被应用在很多算法中。
本环节用来介绍目前的量子机器学习算法。即通过量子计算对传统的机器学习进行加速。
关于机器学习的相关知识，我相信大部分量子AI的读者基本都刷过AI的副本了，所以不再总结。

1.5传统计算机上模拟量子计算方法

目前，大部分人很难接触到量子计算机，但是我们可以通过模拟的方式近似地表示量子计算方法。
模拟量子计算方法在语义行为分析方面具有优势。
各种模拟量子学习方法之间的关联性不大，因为他们获得的启发来源可能不一样。
量子退火算法可能收到局部最小值的困扰，通过量子隧穿效应可以克服局部最小值的问题。
由于量子计算可以通过线性代数进行描绘，因此可以被显卡加速。

总结一下，量子算法可以在计算机上模拟，其他的似乎上方已经重复过了

chapter2 机器学习

关于正常机器学习模型方面省略。

2.2 特征空间

有一个概念以后会用到 $d(x_i,x_j)=\sum_{k=1}^d(x_{ki}\oplus x_{kj})$
这个距离叫做汉明距离会被用在量子联想中

2.4 泛化能力

略，但是2.5值得留意

2.6 集成学习

略

chapter3 量子力学

3.1 状态与叠加

$\textbf{量子态}$ ：量子态表征的是量子系统中的统计信息, 在数学中通过态向量进行表示。
$\textbf{态向量}$ : 也被称作右矢 $|\phi>$ , 由于态向量和概率息息相关，在一般的希尔伯特空间的情况下，我们要求态向量的范数为1(希尔伯特空间是欧几里得空间的推广，即把有限维推广到无限维). 左矢是右矢的共轭可以描述为 $<\phi|=|\phi>^{\dag}$ 。在有限维的希尔伯特空间中，左矢和右矢的内积可以理解为向量的内积s，通过 $<\phi_{1}|\phi_{2}>表示$ . 态向量可以描绘为基矢的线性组合即 $|\phi>=\sum_i a_i |k_i>$ , 其中这个系数的L2 norm 为1.

3.2 密度矩阵和混合态

$\textbf{密度矩阵}$ ：密度矩阵是态向量的外积所组成的算符 $p=|\phi><\phi|$ ,如果一个量子态可以通过这种形式表示，则成为纯态。这个外积类似于叉乘，向量方向同垂直于两向量组成的平面的向量符合。数学上两向量之间的外积可以描述为 $a\times b=ab \sin\theta$

密度矩阵还有投影形式: $\sum_ip_i|\phi_i><\phi_i|$ ，这一形式为混合态 $p_{mix}$ 。混合态满足以下的性质：
(1)不满足等幂性， $p_{mixed}^2=(\sum_ip_i|\phi_i><\phi_i|)(\sum_ip_i|\phi_i><\phi_i|)=\sum_{i,j}p_ip_j|\phi_i><\phi_j||\phi_i><\phi_j| \neq p_{mixed}$
(2)混合矩阵的迹也是1
(3)混合矩阵的平方迹小于1，这是因为乘积形式较正常形式，每一个因子多了一个小于1的系数。
(4)满足厄米性
(5)混合态也是半正定的

经过投影变换后的向量是原向量的酉变换，二者密度矩阵相同。

总结一下，混合态和纯态有两个方面的区别，第一个是不满足等幂性，另一个是平方的迹由于多了一些系数从而让总体的和小于1，其他的性质是一样的。我没有系统学过量子力学，我认为既然态是希尔伯特空间中的变量，那么就可以通过线性代数中已有的结论去推导这些过程。

上文我们已经提到了二值性这一概念，所以通过两个基矢 $∣ 0 >$ 和 $∣ 1 >$ 的线性组合就可以描绘一个最简单的二维空间的叠加 $|\phi>=\alpha |0>+ \beta |1>$ ，密度矩阵表示为线性组合的列向量同行向量的线性代数运算，值得注意一点是这里两个基向量之间做的是逻辑运算不是数值运算，也就是0和1代表着两个逻辑，逻辑运算就不再扯了。混合态可以视作基向量限制条件平方和。混合态的algerb表示同纯态之间的区别是，混合态左下角同右上角之间的连线上没有元素。星号代表着共轭。
$p=\begin{matrix} |a|^2 & ab^* \\ a^*b& |b|^2\end{matrix}$
$p_{mix}=\begin{matrix} |a|^2 & 0 \\ 0& |b|^2\end{matrix}$

这一节扯了这么多，我觉得难点就在于如果没有学过量子力学，一些学术名词很难和线性代数等以前学习过的专业词汇对上号。

3.2 复合系统与纠缠

并非每一个粒子的集合都是纯态或者混合态的。复合系统中粒子能够产生耦合或者纠缠，就构成了复合系统，复合系统的态空间由各部分的张量积而来，并不是简单地加和。张量积可以理解为两个张量中的元素一一相乘。
假设张量空间1和2分别以{|e>}以及{|b>}作为基向量，那么张量空间1和2之间的张量积可以视作基向量每个分量的乘积再乘上约束条件以后的加和 $\sum \lambda_i |e_i>|b_i>$
下方直接总结要点:
(1)混合矩阵的密度矩阵等于两个实体系统的张量空间中的密度矩阵之间的张量积： $p_{A,B}=P_{A}\otimes P_{B}$
(2)密度矩阵的逆运算 $P_A=tr_B(P_{A,B})$
比如对于二值型的密度矩阵可以表示为 $∣ 01 > < 10 ∣$ 此时对这个密度矩阵求关于 $∣ 0 >$ 的偏迹可以得到 $∣ 1 > < 1 ∣$ .一般形式为，假设对于由基矢{|e>}和约束条件b组成的态t1以及基矢{|f>}和约束条件a组成的态t2，对于t1,t2混合密度矩阵于t2的偏迹为 $\sum b_i^2|e_i><e_i|$

$\textbf{纠缠}$ ：无法通过直积表示的组合被称为纠缠态。比如可以将某一个复合态通过张量积计算以后的形式表示出来，令系数对应相同，从而计算直积计算前各个态的约束条件，如果有一些代数对不上号，那么就证明不可通过直积的形式描绘当前的复合状态。

对于 $p_{AB}=\frac{|00><00|+|11><00|+|00><11|+|11><11|}{2}$ ，对应两个态AB的密度函数 $a ∣ 0 > + b ∣ 1 >$ 以及 $y|0>+\delta|1>$ . 求这两个态的具体表示形式。

$\textbf{纯化}$ ：将 $p_A$ 设定为有限维杜n的希尔伯特空间 $\mathscr{X}_A$ 上的密度矩阵，那么就存在着希尔伯特空间 $\mathscr{X}_B$ 和纯态 $|\phi> \in \mathscr{X}_A \otimes \mathscr{X}_B$ 使得与 $\mathscr{X}_B$ 有关的 $|\phi><\phi|$ 的偏迹为 $P_A$

$\textbf{纠缠}$ 指的是两个系统之间的相关性，纠缠包括两个远距离系统之间所产生的瞬时相关性，这种现象成为非定域性。当条件不满足CSHS不等式的情况下，复合定域性。个人从数学理解，复合系统可分离为子态向量则不纠缠，反之则纠缠。

$\textbf{总结一下}$ ，本节介绍了态的概念，量子系统中的状态表征的是量子系统中的统计信息，一般通过向量进行表示。态向量是希尔伯特空间中的元素，通过狄拉克算符进行表示。态向量可以通过基失和约束条件进行描述，其中约束条件的平方和为1。接下来提到了密度矩阵，密度矩阵是态向量的外积，它有若干条性质，其中包括幂等性，而混合密度矩阵是一个态向量于另外一个态向量方向上的投影，不具备幂等性。双粒子态可以被描述为各自希尔伯特空间的张量积，复合系统（注意和混合态之间的区别）的密度矩阵等于各自希尔伯特空间上的密度矩阵之间的张量积。偏迹又称作纯化，可以将复合系统的密度矩阵转化为某一个希尔伯特空间上的密度函数。不能够分离为两个系统的混合系统又被称作为纠缠态。

3.4 演化

演化的特点是确定的连续的一个过程。
通常情况下薛定谔方程为: $i\hbar\frac{\partial}{\partial t}|\phi>=H|\phi>$ 这个态向量在这里是一个函数， $\hbar$ 是普朗克常数，H是Halmiltonian算符。通过密度矩阵进行表示的话 $i\hbar\frac{\partial \mathbb{p}}{\partial t}=[H,\mathbb{p}]=H\mathbb{p}-\mathbb{p}H$ , 当哈密尔顿算符不依赖于时间则有以下表达形式 $E|\phi>=H|\phi>$

幺正变换：这里需要懂一点复变函数，我们知道复变函数可以表示为 $e^{i\theta}$ 的形式，这是一种最简单的周期函数，因为它等于 $cos\theta+isin\theta$ ，能量函数也是一种指数形式 $e^{\frac{-iHt}{\hbar}}$ ,所以一个周期过去后内积不变。

3.5测量

测量前和测量后系统状态不同，测量过程中的信息损失叫做 $\textbf{退相干}$ 退相干是由于观察过程出现了不连续性。然而量子演算要求一个发生在一个叠加态不受干扰的环境中，因此退相干是量子计算的一大难点。

物理量需要一些数学算符，在量子系统中，需要将物理量投影至具有谱分解能力的态空间上，关于谱分解我不太了解，分解方式为 $\sum a_iP_i$ 也就是投影和特征值乘积的和，通过密度矩阵理解反应投影概率的情况。 $P(a_i)=<\phi|P_i|\phi>$ ,书中没有解释其中的含义，我们在上文提到了类似于 $<\phi|P_i|\phi>$ 这种形式是计算迹，而计算偏迹则是纯化操作，即得到复合空间中某一个希尔伯特空间中的态向量，所以我认为这个操作应该是将观测目标同与他做张量积的空间分离开，我们还提到态向量描述的是粒子的统计学因素，因此这个操作来计算粒子 $a_i$ 的概率就符合逻辑了。
书中给的推导: $P(a_i)=<\phi|P_i|\phi>=<\phi|P_iP_i|\phi>=<\phi|P_i^{\dag}P_i|\phi>=tr(P^{\dag}P_i|\phi><\phi|)=tr(P_i^{\dag}P_ip)$ 这是一个计算偏迹的操作，可以向上翻找到相似的公式。
不过这个归一化操作就不太懂了 $\frac{P_ipP_i^{\dag}}{tr(P_i^{\dag}P_ip)}$ ,这是测量后的归一化操作。我只说一下大致的推断，分子有点像是幺正变换，也就是分子代表着测量后的 $p$ (密度矩阵)，而分母是代表着粒子ai的概率，那么我认为这个归一化其实是相当于在测量到粒子ai后的p。

总结一下，测量会产生退相干，所以在真实场景中需要进行归一化处理。

3.6 不确定性原理

先回顾一下互易性，在上文提到对易，它通过类似于 $[A, B] = 0$ 的形式进行表示，等价于 $A B - B A = 0$ ，如果两个算符之间不互易 $AB-BA=\frac{i\hbar}{2\pi}$ ，那么就不会产生瞬时的特征向量从而导致不确定性关系，我们一般讨论动量和位置这两个算符。测不准原理的普遍表示形式为：动量标准差×位置标准差>= $\frac{i\hbar}{2\pi}$ ,为何称作测不准原理，通过数学的极限我们知道当任意一个标准差趋向于0的时候另外一个算符就趋向于无穷大，从而导致你只能测出一个算符。

3.7 隧穿效应

可以理解为神经刀超常发挥，假如是粒子只有在能量达到一定值的时候才可以穿过一个区域，但是由于不确定性原理，当位置的标准差小于一定数值时，粒子的能量超过了阙值，就通过了那个区域。
比如 $\delta p=\frac{i\hbar}{2\pi \delta x}|_{p_0->p_1}\rightarrow p_1=p_0+\delta p \,\,s.t. \, p_0+\delta p >gap$
s.t. 在数学上是 subject to 的简写。