量子计算与人工智能的融合:量子自然语言处理(QNLP)研究进展
原文:Quantum Computers Will Make AI Better
当今的大型语言模型(LLM)按过去标准令人印象深刻,但远非完美
自2019年以来,我们一直在安静且坚定地研发生成式量子AI(Generative Quantum AI)。我们早期专注于构建原生的量子机器学习系统,这项工作得益于我们能够使用全球最强大的量子计算机,以及那些无法被经典计算机模拟的量子计算机,进展因此得以加速。
我们的研究还受益于与在美国科罗拉多州建造的Helios世代量子计算机的紧密联系。Helios比我们的H2系统强大1万亿倍,而H2系统已经显著领先于所有其他可用量子计算机。
尽管像ChatGPT这样的工具已对社会产生了深远影响,但它们在更广泛的工业和企业应用中面临一个明显的关键限制。经典的大型语言模型(LLM,Large Language Models)是计算领域的巨兽,训练成本高昂、规模庞大,而且容易出错,这损害了它们的可靠性。
训练像ChatGPT这样的模型需要处理包含数十亿甚至数万亿参数的庞大数据集。这要求巨大的计算能力,通常需要分布在数千个GPU或专用硬件加速器上。环境成本令人震惊——例如,仅训练GPT-3就消耗了近1300兆瓦时的电力,相当于130个美国普通家庭一年的用电量。
这还不包括运行这些模型的持续运营成本,每次查询都会产生高昂的费用。
尽管面临这些挑战,开发更大模型的势头并未减缓。
这时,量子计算登场了。量子技术提供了一种更可持续、高效且高性能的解决方案。它将从根本上重塑AI,大幅降低成本、提升可扩展性,同时克服当今经典系统的局限。
量子自然语言处理:新前沿
在Quantinuum,我们一直专注于使用量子计算机“重建”自然语言处理(NLP,Natural Language Processing)的机器学习(ML,Machine Learning)技术。
我们的研究团队致力于将NLP的关键创新——如词嵌入、循环神经网络和Transformer——转化为量子领域。我们的终极目标不是简单地将现有经典技术移植到量子计算机上,而是以充分利用量子计算机独特特性的方式,重新构想这些方法。
我们拥有一支实力雄厚的团队。AI负责人Steve Clark博士曾在牛津和剑桥担任教职14年,并在伦敦DeepMind担任高级研究科学家超过4年。他与科学产品开发负责人Konstantinos Meichanetzidis博士密切合作,后者在量子多体物理、量子计算、理论计算机科学和人工智能的交叉领域耕耘多年。
团队在项目中的一个关键策略是避免“照搬照抄”,也就是直接把经典版本的数学方法应用到量子计算机上。
这是因为量子系统与经典系统有着根本区别:它们能利用纠缠和干涉等量子现象,最终改变了计算的规则。通过确保新模型正确映射到量子架构上,我们才能最大限度地发挥量子计算的独特优势。
这些优势不再像我们过去想象的那样遥远。这部分得益于我们在硬件和量子纠错技术上的快速发展。
让计算机“说话”——简史
让计算机理解人类语言的终极问题,与你自己学习一门新语言有些相似。你需要听、读、说大量的例子,记住许多规则及其例外,还要记住单词和它们的含义等等。然而,当“大脑”是计算机时,事情就变得更复杂了。计算机天生擅长它们的母语——从机器码到Python,一切都有明确的结构和规则。
相比之下,“自然”(人类)语言与计算机语言的严格规范截然不同。成语会破坏结构感,幽默和诗歌以创造性方式玩弄语义,语言本身也在不断演变。尽管如此,自20世纪50年代以来,人们一直在思考这个问题。图灵最初的“智能测试”就涉及自然语言的自动解释和生成。
直到20世纪80年代,大多数NLP系统都依赖复杂的手写规则集。然而,从80年代末开始,随着机器学习算法引入语言处理领域,NLP迎来了一场革命。
早期的ML方法主要是“统计性”的。通过分析大量文本数据,人们可以识别模式和概率。这在翻译(如法语到英语)方面取得了显著成功,而网络的诞生进一步推动了从大数据中学习和处理的创新。
许多人认为“现代”NLP诞生于2000年代末。当时,计算能力的扩展和更大的数据集使神经网络的实际应用成为可能。作为数学模型,神经网络由线性代数和微积分等工具“构建”而成。
因此,构建神经网络意味着找到用线性代数和微积分处理语言的方法。这包括将单词和句子表示为向量和矩阵,并开发工具来操作它们。这正是过去15年经典NLP研究人员走的路,也是我们团队如今在量子领域加速探索的路径。
量子词嵌入:复杂的转折
神经NLP的首个重大突破大约出现在十年前。当时,研究人员开发了单词的向量表示,使用的框架包括Word2Vec和GloVe(Global Vectors for Word Representation,词表示的全局向量)。在最近的一篇论文中,我们的团队(包括Carys Harvey和Douglas Brown)展示了如何在量子NLP模型中实现这一点,但加入了一个关键转折。与经典情况使用实值向量不同,团队构建了基于_复值向量_的嵌入方法。
在量子力学中,物理系统的状态由一个位于_复向量空间_(称为希尔伯特空间)的向量表示。通过将单词嵌入为复向量,我们可以将语言映射到参数化的量子电路中,最终映射到处理器中的量子比特上。这一重大进展曾被AI社区低估,但现在正迅速引起关注。
在量子自然语言处理(QNLP,Quantum Natural Language Processing)中使用复值词嵌入,意味着我们从底层开始就在处理完全不同的东西。这种不同的“几何”可能在多个领域带来优势。自然语言具有丰富的概率和层次结构,复数的更丰富表示很可能对此有益。
量子循环神经网络(RNN)
另一个突破来自量子循环神经网络(RNN,Recurrent Neural Network)的发展。在经典NLP中,RNN常用于处理文本分类和语言建模等任务。
我们的团队(包括Wenduan Xu博士、Douglas Brown和Gabriel Matos博士)使用参数化量子电路(PQCs,Parameterized Quantum Circuits)实现了RNN的量子版本。PQCs支持混合量子-经典计算:量子电路处理信息,经典计算机优化控制量子系统的参数。
在最近的实验中,团队使用量子RNN完成了一项标准NLP任务:将Rotten Tomatoes的电影评论分类为正面或负面。令人惊讶的是,量子RNN的表现与经典RNN、GRU和LSTM相当,仅使用了四个量子比特。这一结果引人注目,原因有二:一是它表明量子模型能在更小的向量空间中实现竞争力;二是它展示了AI未来在节能方面的潜力。
在类似实验中,我们团队与Amgen合作,使用PQCs进行肽分类。这是计算生物学中的标准任务。在Quantinuum的System Model H1上,联合团队完成了序列分类(用于治疗性蛋白质设计),性能与同等规模的经典基线相当。这项工作是我们首次将近期量子计算应用于治疗性蛋白质设计关键任务的概念验证,帮助我们明确了在这一领域及相关领域更大规模应用的路径,与硬件发展路线图一致。
量子Transformer——下一个重大飞跃
Transformer是GPT-3等模型背后的架构,通过大规模并行性和在语言建模、翻译等任务中的顶尖性能,革新了NLP。然而,Transformer设计利用的是GPU提供的并行性,而量子计算机尚未以同样方式实现这一点。
为此,我们的团队(包括Nikhil Khatri和Gabriel Matos博士)推出了“Quixer”,这是一种专为量子架构设计的量子Transformer模型。
通过使用量子算法原语,Quixer针对量子硬件进行了优化,量子比特使用效率极高。在最近的研究中,团队将Quixer应用于一个真实的语言建模任务,取得了与相同数据训练的经典Transformer模型相竞争的结果。
这本身就是一项了不起的里程碑。
这篇论文还标志着首个在真实(而非玩具)数据集上应用于语言的量子机器学习模型。
对于关注量子计算与人工智能结合的人来说,这是一个令人兴奋的进步。但在量子计算领域的“噪音”中,它可能被忽视——一些组织为了筹资,常突出琐碎或重复的进展。
量子张量网络:一种可扩展的方法
来自英国Quantinuum的Carys Harvey和Richie Yeung与更广泛的团队合作,探索了量子张量网络在NLP中的应用。张量网络是高效表示高维数据的数学结构,应用范围从量子物理到图像识别。在NLP中,张量网络可用于序列分类等任务,目标是根据单词或符号序列的含义进行分类。
团队在我们的System Model H1上进行了实验,性能与经典基线相当。这标志着首次在量子硬件上运行可扩展的NLP模型——一项重大进步。
量子张量模型的树状结构非常适合我们架构的特性,如中途测量和量子比特重用。这让我们能将大问题压缩到少数量子比特上。
由于量子理论本质上由张量网络描述,这再次展示了量子机器学习方法的根本不同之处。NLP问题的张量网络与描述量子处理器操作的张量网络之间,存在一种“直观”的映射。
迄今为止的发现
虽然还处于早期阶段,但我们有证据表明,在量子硬件上运行AI将更节能。
我们最近在“随机电路采样”任务中发表了结果。此任务用于比较量子与经典计算机。我们在求解时间和能耗上击败了经典超级计算机——我们的量子计算机完成任务的能耗比经典超级计算机Frontier低30,000倍。
随着量子AI模型的能力和规模增长,能耗可能呈现类似的扩展趋势。通常,使用约100个量子比特比使用约10^18个经典比特更高效。
另一个重要发现是,量子模型训练所需的参数远少于经典模型。在经典机器学习中,尤其是大型神经网络,参数数量可达数十亿,导致巨大的计算需求。
相比之下,量子模型利用量子力学的独特特性,以更少的参数实现相似性能。这可能大幅减少运行这些模型所需的能源和计算资源。
前方的道路
随着量子计算硬件的改进,量子AI模型可能逐渐补充甚至取代经典系统。通过利用量子叠加、纠缠和干涉,这些模型有望显著降低计算成本和能耗。由于所需参数更少,量子模型或能使AI更可持续,解决行业当前的最大挑战之一。
Quantinuum的工作标志着AI下一章的开端,这一章具有变革性。随着量子计算成熟,它与AI的融合可能解锁全新方法。这些方法不仅更高效、性能更佳,还能处理自然语言的全部复杂性。Quantinuum的量子计算机全球领先且无法被经典模拟,这让我们得以一窥未来。
AI的未来显然将属于量子。Quantinuum的Gen QAI系统将开启一个新时代,我们的工作将对社会产生深远影响。