语言也是量子

智源社区

于 2020-11-30 13:50:00 发布

阅读量2.3k

点赞数

文章标签：大数据算法编程语言 python 机器学习

本文链接：https://blog.csdn.net/BAAIBeijing/article/details/110459483

版权

“量子力学”可能是我们当下既熟悉而又陌生的一个概念，热衷于玩梗的我们聊天中总是脱口而出“遇事不决，量子力学”，新闻媒体上关于它的概念也不断出现，有去年获得突破的量子通信技术，有中央集中学习量子科技并制定为国家战略的重大新闻，也有刷屏许久引发无数吐槽的“量子波动速读”骗局。量子理论在我们的概念中总是与前沿物理相关，然而当下有关人工智能的研究中，量子人工智能，量子机器学习，张量网络等概念却频频被提及。在scirate网站上，周、月度的热度排行显示，受关注最多的论文总与量子机器学习与量子计算相关。

然而在国内，从事这一方面研究的学者却并不是很多，原因之一在于：量子力学太难了！

11月7日，天津大学副教授张鹏在“第十五届中国中文信息学会暑期学校”上做了题为“量子理论与自然语言处理”的主题讲习报告，这是国内为数不多对这一方面工作的介绍。智源研究院将这份报告内容作以梳理，供有兴趣的学者参考。视频回放，点文末【阅读原文】

作者：智源实习生 周寅张皓

一、量子理论与张量介绍

“关于量子力学的信息基础，Hardy以信息原则对量子力学所做的重构工作进行了发展，该工作在类似的发展中具备数学严格性，如果对导出量子力学的信息处理公理集施加特定限制，可相应地导出量子力学的特例——经典概率理论。因此，量子力学规律不应只被看作微观物理世界的规律，而应被看成一般的信息处理（认知）规律。”

相比较复杂一些的物理概念，量子理论首先可以被看作一套数学工具。为了更好地阅读后续的内容，下面进行一些基本符号和概念的介绍：

狄拉克符号左矢：运算中可以看作行向量，例如
右矢：运算中可以看作列向量，例如
内积：，运算中可以看作向量点乘
外积：，运算中可以看作直积

公理1 量子叠加态

选定状态空间的一组基底，该空间内物体的状态可以由这组基底的叠加态表示。例如对于，和所在的空间，任意状态都可以表示为，满足。

宏观上，有许多常见的现象与之有关，例如一词多义，或者是人类在决策的过程中，所有可能出现的结果的不确定性。在加入到某个语境，或者是做出决策前，不同的事件会以一定概率的形式同时存在，这些情况往往包含了天然的不确定性。

公理2 投影测量

对于任意叠加态，若对其施加观测，该叠加态会塌缩到某一状态，而该状态的概率可以由本征空间上相应的测量算子

算出，满足

在向量空间中，投影测量的计算可以被看作两个向量间的余弦相似度的平方。

公理3 酉演化

一个封闭的量子系统的演化可以通过酉矩阵进行酉变换来刻画，其中，在实数域，酉矩阵相当于正交矩阵，满足，因此实数域的酉变换可以看作对态矢的旋转变换。

公理4 复合系统

“一个复合空间的状态可以由其子空间的状态空间作张量积得到。”

若当前有n个子系统，第i(1 ≤ i ≤ n)个子系统的状态向量为，那么所有子系统的复合状态表示为

张量与张量空间语言模型

张量起源于力学中，原本用力描述弹性介质中各点的应力状态。后来逐渐发展成为一个有力的数学工具。通常情况下，可以看作是矢量概念的推广。例如，一维向量可以被看作是一阶张量，而矩阵则是二阶张量。与线性代数中的矩阵相同，张量可以进行分解，且在不满秩的情况下可以被压缩，有关张量的计算方法可以参考[1]。

量子纠缠

“如果一个复合系统并不能被它的所有子系统的张量的直积态表示，则该复合系统中存在量子纠缠”

直观上，直积态可以被当作是子系统之间所有状态的组合，如果不能被子系统的直积态表示，那该复合系统必然带有一些限制，使各个子系统之间存在一定相关性，并非完全独立。中国社会科学院沈家煊先生也指出了很多和量子纠缠有相似特点的语言现象。例是如在语言学中的互文现象，例如“男欢女爱”，“捕风捉影”。“男”、“女”，“捕”、“捉”等词虽然位置不同，但不能被单独拆开理解。

二、量子理论启发的交叉领域研究

在自然语言处理与信息检索等领域，许多工作引入了量子理论中的概念。张鹏老师的团队在量子信息检索、量子语言模型、量子启发的神经语言模型、预训练语言模型等方向做出了许多工作。例如引入量子干涉的概念表示用户检索的过程，模拟文档之间的干涉；使用密度矩阵或量子多体系统表示语言模型，或利用张量网络建模注意力机制（Attention），并进行参数量和计算量的优化。

2.1 量子信息检索

信息检索在不断发展的过程中，出现了许多建模的方法，例如基于概率、逻辑，可以得到不同的表达。也因此，该领域的研究缺少一个统一的模型框架，非常依赖研究者的经验。如何构建统一的理论体系，引起了C.J.van Rijsbergen教授的思考，并在他的专著”The Geometry of Information Retrivial“[2]中，提出了使用量子理论建立统一的量子信息检索理论框架，并吸引了众多学者的关注与研究投入。

早期工作

张鹏老师指出，量子信息检索的早期工作主要由量子理论的概念和相关实验所启发。

Quantum Probablity Ranking Principle[3] 中，对传统的PRP算法进行了改进。文中将文档排序模拟为双缝实验，将用户搜索A，B文档看作光子通过A、B两个窄缝，用户决定停止搜索（即满足A、B的排列顺序）作为实验中观测光子通过路径，最终目标便是最大化用户选择停止搜索的概率由于在物理过程中，光子通过A、B双缝并非独立事件，因此最大化中增加了干涉项，使用余弦相似度计算文档A、B间的“干涉”，表达式如下：

直观上，若A、B文档内容相近，则PRP算法容易将其同时作为优先项排序，但有时候B中重复信息过多，并没有为用户带来太大价值；反而如果文档C具有异于A想法的论述，此时阅读过A后，阅读C文档的收益会更高；因此尽管其与A相关性较B低，C在搜索任务中更有价值，需要优先排列，这可以被看作是文档B对C的干涉。QPRP算法中引入的干涉项可以在一定程度上可以模拟这种现象。

此外，其他工作如 A Norvel re-ranking approach inspired by quantum measurement[4] 同样引入了量子实验的概念，将搜索看作是光子极化的过程进行量子测量。

最新的进展

张鹏老师团队最近的工作 A Quantum Interference Inspired Neural Matching Model[5]中使用量子干涉对神经匹配模型做出了改进。传统匹配模型中，查询中的不同查询单元与文档相关性是单独计算的，即每个查询单元是被单独考虑的，这与人的认知过程并不相符，我们常常将要匹配的条件看作一个整体。假设查询单元检索过程独立，则查询和文档的相关性得分表达式为：

当考虑查询单元之间的交互时，对于包含和的查询，自然地可以推出其与文档D的相关性得分为：

其中包含了为与之间的干涉项，很好地模拟了符合人认知过程的匹配操作。将上述理论引入到神经匹配模型，先使用词嵌入向量表示查询和文档的各个单词，再分别以权重和表示为叠加态，并做张量积得到与的复合态的表示???? 。为了节省计算开销，使用约化密度矩阵建立文档子系统的概率分布，表达式如下：

分解后的矩阵中是和的乘积，可以看作与相似性的度量，而则包含了干涉项。

最终，模型计算了查询与卷积后的概率分布矩阵的乘积，得到每项的attention的得分，用于计算最终的ranking score，计算过程如下图所示：

模型实验结果优于经典信息检索模型（BM25，QL），神经匹配模型（DRMM，N-KRM等），以及量子语言模型（QLM，NNQLM-1等），并通过消融实验证明了对干涉现象建模对网络效果的提升。

2.2 量子语言模型

量子语言模型对于量子理论在自然语言领域具有里程碑的意义，尽管其性能近年被超越，但由于语言模型的普适性，它的提出极大扩展了量子理论在自然语言处理领域的应用。它的具体意义如下：

清晰地回答了量子语言模型与其他模型相比，在哪些具体的问题上有优势；
将量子概率测量用在语言模型中，扩展了量子理论的应用空间。

基于统计的语言模型中，例如n-gram，计算的复杂程度随窗口大小指数级增长，且词表规模会随着词组的增加而不断增大。但量子语言模型中，这些问题可以得到有效解决。例如，使用密度矩阵可以将任意句子表示成固定维度，且密度矩阵的维度并不会随着词表的维度增加，测量单词就可以表示为在上的投影的平均，用迹运算可以写作。对于文档，通过对量子语言模型进行最大似然估计得到，并通过训练学习密度矩阵，对query和document的密度矩阵的VN距离比较，实现排序。

张鹏老师指出，因为QLM分离了密度矩阵的学习和使用密度矩阵匹配的过程，因此无法针对特定任务训练或者更新优化密度矩阵，导致其性能落后于同类模型。其主要的缺陷有：

输入采用one-hot编码未能考虑全局语义；
通过密度矩阵表示文本是迭代求解，而非解析求解；
密度矩阵的表示、训练和匹配这三个步骤无法共同优化。

由此，张鹏老师的团队提出了神经量子语言模型，工作发表在2018 AAAI[6]。该工作使用了归一化的word embedding向量作为量子化的词向量，句子则可以表示为密度矩阵的形式，有：

工作设计了端到端的模型架构，通过计算迹内积比较问题与搜索密度矩阵之间的距离，最终模型得到QA的密度矩阵联合表示M，并与其迹内积一同作为特征经过softmax后，使用交叉熵损失进行反向传播训练。同时，文中的另一种结构使用卷积层从密度矩阵中学习更加复杂的表示。在测试数据中，相较于QLM及其同类模型获得了较大提升。

2.3 量子多体语言模型与神经网络

越来越多的工作表明，神经网络与量子理论在底层存在一些形式上的联系，因而产生了量子机器学习这一交叉领域，吸引了众多学者的关注。语言模型的发展过程——例如从线性、循环的模型到attention机制，模型从学习相邻位置的词间关系，逐渐扩展到学习更广泛的词语关系，但若尝试学习语料中所有可能的相关，甚至词向量中不同维度间的关系，传统模型则很难表达。

在2018年的A Quantum Many-body Wave Function Inspired Language Modeling Approach[7]中，张鹏老师团队提出了一种量子多体波函数（QMWF）启发的语言建模方法。

文中将不同语义表示为不同的基态，则可以用其叠加态得到全局的表示，为：，其中为一个N维张量，直观上表示为所有可能的基底组合的叠加状态。同理可得到句子的相似表示，参数张量为。则模型预测的运算可以被看作到 >的投影。通过对与分别进行奇异值分解与CP分解，可以得到类似卷积神经网络的计算形式：

其中，各层运算对应关系如下：

该模型相较于NNQLM和QLM模型，性能得到了明显的提升。此外，张鹏老师的团队在2019的工作A Generalized Language Modeling Tensor Space.[8]中，同样使用波函数进行文本表示，利用高阶张量建立语言模型，基于张量网络的视角，对RNN做出了理论解释，证明了N-gram语言模型与RNN可以被看作TSLM的特例。

报告中，张鹏老师指出，张量可以解决QMWF-LM中的指数墙问题，但对于高阶张量分解时的参数指数级增长的问题，仍待进一步的研究，以使用表达能力更强的高阶张量进行文本表示，并建立完整的语言模型。

2.4 预训练语言模型的优化

近年来，基于Transformer的一系列模型在NLP领域取得了优秀的结果，在多项任务上取得突破，但后续基于该模型的工作，例如Bert，GPT等，模型计算日趋复杂，参数量巨大，因此许多研究者使用参数压缩的方式，降低参数量。张鹏老师团队尝试使用张量分解，在A Tensorized Transformer for Language Modeling[9]工作中，使用张量分解技术对Transformer的注意力机制（Attention）进行了重构和压缩，在参数量压缩超过80%的情况下，模型性能仍能和原始Transformer保持相似的水平。

在TensorCoder[10]的工作中，张鹏老师团队同样对Transformer的注意力机制进行了优化，通过构建了维度注意力机制，使注意力机制的复杂度从降低到了，在建模长序列任务时，模型的计算效率得到了很大提升。同时，模型的维度注意力机制通过建模词向量各维度之间的关系，能学习到更多的信息。

三、量子人工智能的前景

报告最后，张鹏老师展望了量子人工智能及自然语言处理领域的未来，并表达了对张量网络为代表的量子启发的模型对人工智能发展的乐观态度。张鹏老师指出，张量网络与机器学习存在普遍的联系，其本身就可以用于机器学习。且当前深度学习的主流框架大多基于张量的运算，因此可以自然地想到，利用张量网络进行相关计算可以方便的对学习算法进行加速。同时，张量网络的可解释性可以用于对深度学习模型进行表示和理解，多项工作已经表示，其与深度学习方法，诸如CNN，RNN，乃至深层模型之间存在等价关系，并可以通过张量网络的理解和分析，指导未来模型的设计。