TOC专家谈 | 大模型与知识图谱协同机制新进展(天津大学王鑫)

导读

OpenKG新开设“TOC专家谈”栏目,推送OpenKG TOC(技术监督委员会)专家成员的观点文章。本期邀请到天津大学王鑫教授介绍“大模型与知识图谱协同机制”方面的一些探索,本文整理自王鑫老师在“OpenKG走进苏州大学”Talk上的分享。

本报告将回顾大语言模型和知识图谱的基本概念,介绍两者之间的协同机制,并通过几个案例来引出一些思考。本文简要介绍了TOC专家天津大学王鑫教授在此领域开展的初步探索工作。

4d85baad8db0e4bb8e27df91f37b6d74.png

今天给大家带来的分享是大模型与知识图谱的协同机制。首先回顾一下大语言模型和知识图谱,然后介绍两者之间的协同机制,最后通过几个案例来引出一些思考。

大语言模型

042c18ca9f6614826f87a5cd1de832d1.png

通用人工智能AGI,当前的趋势表明其重要性日益凸显。过去,人们普遍认为AGI是一种科幻概念,并主要专注于实现特定任务的狭义弱人工智能。然而,随着⼤语⾔模型能力的提升,它们展现出来的能⼒和出现的应⽤引发了对通⽤⼈⼯智能的更多讨论,特别是高级推理决策等场景。例如,最近的研究成果显示,使用大型模型参与策略游戏(例如“星际争霸”)的工作已经取得突破的进展。

85153a104c82c596f312b8c1934173af.png

然而,目前的大模型仍存在一些局限性,比如幻觉问题。以一个小例子来说明:查询与北京相邻城市的市花,这个问题涉及典型的知识性信息。尽管大模型可以给出多段回答,但这些答案提供的事实信息并不准确——比如,天津市的市花并不是牡丹,廊坊市的市花也不是菊花,但是通过构建知识图谱,可以更有效地解决这类问题。

f924640d9b220797e505bd45cd3328f0.png

另外还有一类问题是计算能力弱,如图所示大模型的计算步骤是对的,但是解应该是整数7,而结果却显示约等于7.007。

2bd30df77aa93d0936924a069d1b8400.png

此外,大模型还存在知识时效性的缺陷。当询问最新信息时,大模型在处理更新知识和增量学习方面表现不佳。目前的大模型的知识更新仍然依赖于外部知识的补充与增强。

总的来说,大模型在通用和部分领域任务上,其性能已超越传统方法。然而,在知识计算方面特别是在知识获取、推理与应用上仍存在一些局限性。大模型与知识图谱可以相辅相成,通过相互融合能够实现优势互补,从而增强整体的智能处理能力,共同推动人工智能技术的进步。

知识图谱

c0c6055b49fe1f7d6c2a13a5abc29248.png

关于知识图谱,目前基本被视为知识工程的最新代名词。知识工程的历史悠久,早期的人工智能主要依靠符号主义,强调知识的获取、表示和使用。然而,人类的大脑如何组织知识尚未完全理解,因为当前的神经网络模型主要模仿人脑的神经元网络。此外也请教过搞脑神经的专家,尽管脑神经学的研究对大脑各个区域的功能上有一定认识,但并未达到细胞级别的精确解析,这受到多种因素的影响,包括伦理限制等等。但这并不妨碍我们从机器和数据的角度来模拟和理解知识。

120af1cd048d10334dbdc0b0fc3a719c.png

知识表示的起源可追溯至亚里士多德的《范畴篇》,这大约在两千年前,实质上构成了我们现今所谓的本体。之后被古罗马哲学家波菲利归纳总结,通过分类方式组织知识的方法。该方法类似于现代面向对象的本体分类一样,这便是知识工程最早的雏形。

fbc6eb890eed3224238462d36a8ccd15.png

再后来到了上世纪的专家系统,当时非常流行,费根鲍姆也因此获得了图灵奖。他开发的第一个专家系统就是基于推理的知识库,将某个领域的专业知识全部输入其中。比如有一条规则:如果满足五种条件,则可以得出一个可信度。这推理过程就像一条链子一样,不断叠加规则进行推理。实际上我们现在所说的智能体,就是类似的概念,只是在大模型的背景下再次被提及。

4154f29872755ab1f56b18f574471bc5.png

知识图谱实际上是知识工程发展的一个新阶段。尽管它有时被低估,但它一直在不断发展,到今天已经不仅仅是传统的逻辑方法,而是推理、表示学习、知识表示、Web、NLP等领域结合。

bee2893328f7260572ddc33f4032739b.png

知识图谱的分类有百科知识、常识知识以及领域知识,大家都知道大模型在特定领域发挥作用时,往往需要领域知识的支持。此外,多模态知识也是知识图谱的一个重要组成部分。以上是对知识图谱的一个简要回顾。

大语言模型与知识图谱协同

a5ac8045a4bf4688dfa10166d678f549.png

接下来我们将讨论大模型和知识图谱之间的协同机制。人工智能学派包括符号主义和联结主义。近年来,人们可能会更多地提到神经网络联结主义,但在实际中,这两种方法仍然并存。一个是结构化的,如左图中的符号主义,具有结构化的解析方式;另一个是自底向下的,如右图所示,局部看似不具有可解释性,但整体上看又能够完成相应的任务。

12e6dfd2bf8d0b46bef078871d145d92.png

这让我想到了认知科学中先前讨论过的“系统1”与“系统2”。这本书实际上阐述了认知科学的重要概念:系统1代表快速、直观、依赖直觉的思维模式,类似于大型神经网络的即时反应;而系统2则是缓慢、深思熟虑、有逻辑且逐步进行的思维方式。从认知科学视角看,人类确实拥有这两种思维模式。问题是,当前的高级人工智能模型是否也内置了类似系统1和系统2的双重机制呢?这是一个值得深究的话题。关于知识增强及如何将结构化数据转换成非结构化信息的表达,是否可以向这个方向去发展,也是一个值得探讨的方向。

74bb6be215ef9cee1e0ddac1ad480c03.png

这里展示出了大模型与知识图谱在优势与劣势上的对比概览。例如,大模型面临诸如产生幻觉、黑箱操作、不确定性、缺乏特定领域知识及实时性更新不足等问题,而这些恰好构成了知识图谱的优势所在——即高度精确、可解释性强、富含领域专业知识并能及时更新。知识图谱的特性确保了其内容的准确性和领域针对性。反之,大模型的强项在于其广泛的应用范围、卓越的语言处理能力、强大的泛化与通用性,这些又正好是知识图谱的局限点。知识图谱,尤其是针对特定领域的构建,极度依赖领域专家的人工介入,导致资源密集且难以大规模自动扩展。即便采用众包等手段,也难以完全避免知识的不完整性,并且在自然语言理解方面可能不如大模型那样深入。ChatGPT采用的插件系统提供了一个很好的范例,它能够针对特定任务调用专门的工具,比如利用高级计算器工具来处理复杂的数学运算,这样就不必事事依赖大模型本身来完成所有计算任务。这一机制高效且实用,因此我们可以思考知识图谱是否也可以作为大模型的外部调用。

b2dd5885592daf76ba9d7f97d151acac.png

知识图谱和大模型协同的方式多样,就像之前提到的RAG方法。重点是两者如何配合,即知识图谱助力大模型,同时大模型也能反过来帮助知识图谱。这其中,重点介绍的是知识图谱如何增强大模型,讨论知识图谱能在大模型的什么阶段中参与进来。其实不论是在模型预先训练时,还是在实际的推断阶段,亦或是在最后输出结果的可解释性阶段,知识图谱均能发挥作用。

d0e0befef0a6dd3cbedaba65424d4458.png

在预训练阶段包括数据集的构建,主要有两种方式:一种是左侧的方法,即将知识图谱与文本数据进行对齐,将知识图谱里实体的标签等信息转化为文本形式,作为模型输入数据的一部分。另一种方式则是先进行图的对齐,即先把文本转化为图的形式,之后将两者作为大模型输入进行训练。

fb250bf98fd6fcb5885d0709af5667f1.png

还有一个步骤是在中间阶段,包括动态知识图谱的融合方法。像JointLK这个方法,就是在大模型的使用过程中设置了两个编码器,一个是处理语言问题的编码器,另一个是知识图谱的编码器。模型中间有个联合推理层,实现了LM到KG和KG到LM的双向注意力机制。之后,在动态剪枝部分,它会经过多层步骤迭代,逐步找到和问题最相关的子图,从而给出答案,这是其中一种方法。

另外,检索增强(RAG)也是一种重要的知识增强的方法。当前在产业界尤其是知识图谱与图数据库领域公司中常用的概念是"Graph RAG",它涉及到将知识图谱作为附加的外部知识源。RAG传统上依托于向量检索手段,利用底层的向量数据库进行操作。而新近的发展是,知识图谱数据库可直接以图数据库形式进行查询,进一步将向量检索结果与图检索结果融合,共同馈入大模型进行处理。实验验证了这一点,表明这种融合策略相较于单一检索,能够显著提升性能表现。

0a98f142c3e7ac5cb24a319fb70beafe.png

此外,一个关键领域涉及在查询结束后对大模型输出结果的可解释性分析。具体而言,如左图采用了一种基于KG的大模型探查评估技术,旨在深入探究大模型是否具备准确解答问题的能力。这一过程包括利用迭代验证手段,从知识图谱提取实际信息,构造问题情境,并向大模型提出查询。随后,将模型的预测反馈与知识图谱数据进行对比检验,以此验证模型答案的准确性,从而评估大模型内在知识蕴含及预测能力的可靠性,即其可解释性的一面。

当大模型针对某一问题给出答案时,若要追问为何如此,模型本身无法直接提供解释。因此,右边的方法借助知识图谱进行映射比对,以增强解释逻辑。例如,爱因斯坦与某个国家的关系在知识图谱中可能并非显而易见,而是需要通过传递等方式推理得出,比如爱因斯坦与普朗克的同事关系,加之普朗克的国籍为德国,间接推断出爱因斯坦与德国的关联。用此类方法来增强大模型输出的可解释性。

bb5fb04cf26ce17ced50312b6659dc1b.png

另一方面,大语言模型也能提升知识图谱的能力。这是因为知识图谱自身有一个生命周期,从创建图谱开始,经过补充完善再到使用图谱进行问答等各个阶段。大模型在这些环节中都能提供相应支持和加强作用。比如,在知识图谱整个构建过程中,从实体识别、消歧到关系提取等方面,都可以利用大模型来完成相关任务。

553d44a937ead922c54026b36257e3f9.png

其中一类工作是在图谱的构建阶段,利用大模型从中抽取三元组来构建知识图谱。

e5605fa6f95beb0879fbc5b03fa9b72d.png

还有一个重要应用是用大语言模型来进行知识图谱的补全。知识图谱的补全是一个重要的任务,以前有许多不同的方法来尝试解决这个问题。无论是利用大模型作为Encoder还是Generator,都可以代替原来传统模型的方法,以更有效的方式完成这项任务。

12882fc94dd5feba6bebe87ee5f28301.png

最后,将其用于KGQA,也称为KBQA。传统上基于知识图谱的问答实际上是在知识图谱中找到答案路径的过程,这种问答是具有可解释性的。如今通过引入大模型,可以在早期阶段使用大模型进行实体和关系的抽取,然后将其交给知识图谱来完成问答。在回答阶段,也可以利用大模型来生成更好的答案。在这个过程中,我们可能忽略了一个问题:虽然我们现在在使用大模型进行问答,但实际上之前已经有大量的KGQA相关工作。如何将这两者结合起来,可能是后续研究的一个重要方向。

29cfbf6cb0f240f06b6cb3c32dc45fd2.png

综上所述,这两个单独的方面实际上可以形成一个融合的迭代闭环。也就是说,知识图谱(KG)可以通过其显式知识和领域知识的可解释性来增强大模型(LLM)。反过来,大模型可以通过其语言处理能力、泛化能力和通用知识来进一步增强知识图谱,从而形成一个迭代闭环。在上层应用中,这个闭环可以支持推理、构建、推荐、问答等多种功能。在底层,它可以整合不同模态的数据,形成一个深度协同的模式。

应用案例与思考

1002a426b689abb1f9bb2e7449666ee7.png

最后,我想和大家分享几个案例。首先是来自LangChain的一个案例,他们网站上展示了一个使用知识图谱数据库的实例。这个案例采用了RAG方法,具体来说,是Graph RAG。在这个方法中,不仅使用了向量搜索,还结合了图搜索。这种结合方式使得图谱中既包含结构化信息,也融合了非结构化信息。最终,这些信息被输入到大模型中。

9a9f033011addf6356584889df4862b9.png

第二个案例是微软 Office 365 Copilot,大家可能比较熟悉。实际上,在其背后也有一个知识图谱,即Microsoft Graph。他们首先查询知识图谱,然后将结果输入到大模型中,再将生成的结果反馈到Office应用中。

6d67d22fc6177a1a5fcd0e025899943f.png

第三个案例是我们将大型语言模型与中药领域知识图谱的创新结合。具体来说,我们构建了一个外部中医药知识库,并利用这个知识库来丰富和增强模型对问题的理解处理能力。不仅如此,我们还采用了一种额外的策略:通过知识抽取框架,将问题再次提炼并使之与知识图谱对齐,这样就能扩展问题的范围,使其能深入触及外部知识库的广博内容。这一过程促进了问题向更深层次的迭代演化。

107dec156dec4b88be2b9924133a8a49.png

3c79e78d0aa16e797dad5a1c3e161de6.png

19f57eeb9a95b9040d4c2dfa69c41a0c.png

举个例子,当我们把专为中医药设计的模型与通用大模型进行对比时,能明显感觉我们的专业模型在内容上更为精准,这一点也得到了业内专家医生的认可,尤其是在方剂成分等细节方面,展现出了超越通用回答的专业性。为了进一步提升模型的专业水平,我们开展了一系列产学研合作,并推出了“岐伯大模型”。

在这个项目中,我们广泛搜集整理了中医药相关资料,涵盖了从古代文献到现代教材的全方位信息,经过精心的数据处理与人工采样评估,确保了数据的高质精确,最终形成包含约八千五百万个token的数据集。在此基础上,我们采取了成本效益更高的策略,即对现有模型进行二次预训练与微调,避免了从头开始的高昂资源消耗,成功打造了具有两个参数的岐伯模型。该模型依托于我们自主研发的技术平台,背后有着强大的计算资源支持。

在新近的测试中,岐伯模型展现出了卓越成效,特别是在针对中医执业医师考试的评估中,在涵盖13个科目、超过2000道题目中达到了最佳表现。我们还邀请了7位经验丰富的中医药专家进行主观评审,结果同样证明了模型的优越性能。

848b2c8dfdb4c2052ad39ca69ed7b881.png

最后,我想与大家分享一些我们的思考,主要围绕三个核心点展开。

首先,我们相信当前知识图谱与大型语言模型的协同工作模式,正有潜力成为神经与符号结合领域的一项重要突破口,不仅能够应对大型模型中常见的“幻觉”问题,还能有效处理知识更新的问题。

其次,这一协同模式还可能为通用人工智能(AGI)的研究开辟新路径。正如之前提到的,知识图谱(KG)与语言模型(LLM)的相互作用,以及它们通过迭代共生发展的方式,或许能建立以大模型为基础以知识图谱为高层机制的AGI范式。

最后,考虑到人工智能要在众多领域实现有效应用,获取高质量、精准的领域知识至关重要。如果领域知识质量不高不够精准,也会很难做到落地。最后如果开发类似Copilot,现在可称之为智能体协助助手,可能也需要依赖于知识图谱与大型语言模型的深度融合。

以上就是本次分享的内容,谢谢

e962ebc29d8bca16b1c75652564ca3e9.gif

e65946bbf32464e42115f00c9e9a112e.jpeg

作者简介

INTRODUCTION

c84750bf3bae55f2c1938bc112fe005a.gif

王鑫

344f38bc552eca0d7b1d24ef043227c4.gif

天津大学智能与计算学部教授、博导,人工智能学院副院长。国家重点研发计划项目首席,教育部重点领域教学资源及新型教材建设项目专家组成员,教育部知识工程课程群虚拟教研室带头人。中国指挥与控制学会大模型与决策智能专委会常务委员、中国计算机学会信息系统专委会秘书长、中国计算机学会数据库专委会常务委员、中国计算机学会大数据专家委员会执行委员。研究方向:知识图谱、大模型、大数据处理。在国内外学术期刊和会议上发表论文150余篇。担任多个国际会议程序委员会主席及委员。《计算机工程与应用》期刊副主编、国际期刊Knowledge-Based Systems副主编。曾获得天津市教学成果奖特等奖、天津市科技进步一等奖、中国计算机学会科技进步二等奖。

c1a0a74be02b0797ec7506b6f360443e.gif

OpenKG TOC(Technical Oversight Committee)作为OpenKG开放社区的技术监督机构,在OpenKG授权范围内,为开放社区提供技术指导、技术监督和宣传布道等工作,以帮助OpenKG更加规范化的管理和运行。首批OpenKG TOC专家由二十名来自浙江大学、东南大学、同济大学、清华大学、南京大学、北京大学、武汉科技大学、北京邮电大学、苏州大学、天津大学、中科院信工所、国防科技大学、东北大学、英国爱丁堡大学、意大利卑尔根大学、蚂蚁集团、华为、阿里通义实验室、恒生电子、柯基数据等国内外高校和企业的知识图谱方向负责人和一线专家组成。


OpenKG

OpenKG(中文开放知识图谱)旨在推动以中文为核心的知识图谱数据的开放、互联及众包,并促进知识图谱算法、工具及平台的开源开放。

98b3b1e3a4ea12a4fbc4397ffd3552e3.png

点击阅读原文,进入 OpenKG 网站。

  • 7
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值