“新KG”视点 | 王文广——图模互补:知识图谱与大模型的共生新模式

OpenKG

fde1e2311aeca8529ceaa1f229141753.png

大模型专辑

导读 知识图谱和大型语言模型都是用来表示和处理知识的手段。大模型补足了理解语言的能力,知识图谱则丰富了表示知识的方式,两者的深度结合必将为人工智能提供更为全面、可靠、可控的知识处理方法。在这一背景下,OpenKG组织新KG视点系列文章——“大模型专辑”,不定期邀请业内专家对知识图谱与大模型的融合之道展开深入探讨。本期邀请到达观数据有限公司王文广分享“图模互补:知识图谱与大模型的共生新模式”。

分享嘉宾 | 王文广 达观数据有限公司

笔记整理 | 邓鸿杰(OpenKG)

内容审定 | 陈华钧


01

引言

在生物领域,共生系统是指两种或多种不同的生物种类在一定的时间和空间内,通过某种方式相互作用,从而形成的一个有机的整体。互利共生是共生系的典型现象,是指两种或多种不同的生物在一定的时间和空间内相互依赖,从而获得利益的一种生态现象。比如蜜蜂和花朵之间的关系,蜜蜂通过采集花蜜获取食物,同时帮助花朵传播花粉。有名的动画电影《海底总动员》中的主角小丑鱼与其居住地海葵之间,也是一种互利共生的关系。小丑鱼依赖海葵获得庇护和繁殖场所,而海葵也在一定程度上依赖小丑鱼获得营养和免受捕食[1]。

f051d978f3423116165875d1e606f4f4.png

在自然界之外,科技的发展也产生了许多共生系统,典型的一个例子有光伏发电、水电和牧羊之间的互利共生模式[2]。在这个模式中,一方面是“水光互补”,实现了将原本间歇、随机、功率不稳定的锯齿形光伏电源,调整为均衡、优质、安全的平滑稳定电源。即当太阳光照强烈时,用光伏发电,水电停用或少发。当天气变化或夜晚来临时,用水力多发电,以减少天气变化对光伏发电的影响,从而获得稳定可靠的电源。同时,光伏发电板上发电、板下牧羊,又将光伏发电和畜牧业相结合,实现了“光伏+牧场”方式,既减少了光伏企业成本,也助力农牧民增收,实现了经济、环境效益的双赢。“水光牧”的互利共生,实现了经济、生态、 社会三大效益高度统一。

同样的,在大模型如火如荼的今天,当我们探索大模型的产业应用中,发现其存在幻觉、不可控、不可解释等问题。而此前几年热门的知识图谱等技术,则恰好是事实性、可控性和可解释性非常好的技术,是可解释人工智能的代表性成果,可以很好地弥补大模型的不足。同时,在知识图谱中令人诟病的构建难和语言理解问题,恰好又是大模型所擅长的。当我们仔细评估大模型和知识图谱各自的特性时,会发现他正如同自然界的小丑鱼和海葵,或者“水光牧”,形成了很好的互利共生的关系。本文首次提出了“图模互补”一词来概括知识图谱与大模型的共生新模式。下面深入探讨这种图模互补的共生模式。

02

相关工作

知识图谱[3]和大模型[4]是人工智能领域的两个重要概念,它们分别代表了不同的知识表示和处理方式,也有着相互促进和补充的关系。

大模型是一种基于深度学习的人工智能模型,通常指具有超大规模参数量和数据量的神经网络模型。大模型通过从大量文本或多模态数据中学习语言和模式识别能力,可以更好地理解和处理自然语言,甚至生成新的文本或内容[4]。狭义的大模型,即大语言模型,指具备数十亿乃至万亿参数,通过高达万亿词元数量的文本语料训练出来的深度神经网络模型。大语言模型在语言理解和生成上取得了出色的成绩,其发展历史可以追溯到2013年的 Word2Vec[5],但直到近年诸如GPT-3[6]、LaMDA[7]、 PaLM[8]、PaLM-2[9]、LLaMA[10]、LLaMA-2[11]、CodeLLaMA[12]、WizardMath[13]等大模型的出现(如图2),才使得大语言模型的应用得到了普及。广义的大模型则包含了语言、声音、视觉等多模态任务,其典型代表是Flamingo[14]和GPT-4[15]。大模型能够发展到如此高度,得益于充分利用注意力机制[16]进行序列建模的变换器网络(Transformer)架构[17]及诸如稀疏变换器网络[18]这样的变种。最近,变换器网络架构最终统一了语言[6-13]、视觉[19]、声音[20]和多模态[14,15,21,22]的建模。大模型支持通过提示工程(Prompt Engineering)[23,24]来实现应用于特定任务上的情境学习,展示了强大的通用能力,并预示了通用人工智能曙光初现[25,26]。

知识图谱(Knowledge Graph)是一种结构化的语义知识库,用于以符号形式描述物理世界中的概念及其相互关系。其基本组成单位是“实体-关系-实体”三元组,以及实体及其相关属性-值对,实体间通过关系相互联结,构成网状的知识结构[3,27]。知识图谱的概念源于语义网络(Semantic Network),后来受到本体(Ontology)、语义网(Semantic Web)、链接数据(Linked Data)等理念的影响和发展[28]。知识图谱可以帮助人工智能系统更好地理解实体之间的关系和属性,从而提高自然语言处理、信息检索、推荐系统、问答系统等领域的准确性和效率。

知识图谱和大模型之间有着密切的联系,它们可以相互配合,实现更加复杂和精准的任务[29]。例如,大模型可以从大量文本数据中提取出实体和关系,然后将它们转换成知识图谱的形式[30]。知识图谱可以帮助大模型更好地理解实体之间的关系和上下文,从而提升自然语言处理的准确性和效率[31]。同时,知识图谱也可以作为一种约束机制,避免大模型产生一些不符合逻辑或常识的输出,进一步的,知识更新、事实凭据、复杂推理等对智能系统至关重要,知识图谱在其中发挥着关键作用[3,27]。

03

知识图谱与大模型的共生模式

不管是知识图谱还是大模型,都有其问题所在。从知识图谱的视角,存在诸多问题,比如:

  • 知识图谱的构建和维护是一项耗时和费力的工作,需要大量的人工标注和质量控制来从非结构化文本中抽取实体、关系和属性,构建成知识图谱。

  • 知识图谱也难以覆盖领域内和场景所需的所有知识,容易出现不完整的问题。

  • 基于知识图谱的问答中,语言理解和生成问题一直是棘手所在,使用知识图谱的门槛较高。

另一方面,大模型同样存在诸多问题,包括:

  • 大模型的训练和推理需要消耗大量的计算资源和能源,带来巨额的成本,同时也给环境(碳排放)带来负担。

  • 大模型也缺乏对事实知识的验证和纠正机制,容易出现幻觉问题。幻觉问题指的是大模型生成的内容与给定的输入或背景不一致或不相关,或者与事实或知识不符或无法验证的情况。幻觉会影响大模型生成内容的质量和可信度,甚至会对人类用户造成误导和危害。

  • 更新大模型所具备的知识成本巨大,无法实时更新,特别是,目前无法纠正一个特定的错误知识。

  • 输出基于概率完全黑盒,难以精确控制其结果,同时对如何产生这样的结果也无法解释。

而恰好,大模型的问题,知识图谱较为擅长,同时大模型也善于解决知识图谱所存在的问题。这正如同前文所提到的科技界的“水光牧”互补或者自然界中的小丑鱼与海葵之间的共生关系,可以相互支持和促进。探索知识图谱与大模型的共生方式,利用两者各自的优势相互赋能,弥补各自的不足,实现更高层次的认知能力。此外,大模型和知识图谱还可以互相作为对方的评估工具,实现有效的额反馈、调整和改进。也正是通过这种共生关系,知识图谱与大模型一起共同解决了当前单纯依靠大模型存在的幻觉、不可解释、不可控等问题,也解决了单纯知识图谱存在的构建难、语言理解与生成能力弱等问题,实现可信、可靠、以人为本的通用人工智能。具体来说,在图模互补的共生系统中:

  • 大模型负责语言的理解与生成,实现对话式的交互,并负责跨语言的知识对齐和知识获取。具体到大模型对知识图谱的贡献上,则可以利用大模型在语义理解、内容生成等方面的技术优势,实现大模型对知识图谱构建至应用全生命周期各环节的增强,提升效率和质量。例如,利用大模型从文本中抽取实体和关系,构建或更新知识图谱;利用大模型根据知识图谱生成自然语言描述或问答对话,应用或传播知识图谱。

  • 知识图谱则负责确定性的事实与知识,提供实时或及时更新的新鲜的知识,负责确定性的演绎推理和谓词逻辑,以及对错误知识的及时编辑与纠正等等。例如,由于知识图谱在知识标准化、可解释性、可溯源性、可控性、新鲜和及时更新等方面的优势,可以通过知识图谱来增强大模型从训练到应用的多个环节,提升大模型的应用效果和推理结果的可用性。例如,利用知识图谱作为额外的监督信号或输入特征,提升大模型在预训练或微调阶段的表现;利用知识图谱作为外部记忆或参考文献,在推理或生成阶段对大模型进行指导、纠正和知识溯源。

acbea08654322c858107323341a74c26.png

在图模共生的人工智能系统中,能够实现:

  • 减少或避免幻觉和胡编,生成准确、有效、新鲜、能溯源的结果,避免产生一些错误或编造的输出。

  • 以可控的约束和指导来提供更丰富的背景和语境,实现可信与可解释的人工智能,确保符合逻辑、常识、事实。

  • 以图模共生为指导,确保人工智能的输出符合逻辑,理解用户,适应环境,向上向善,而不会对人类造成误导与伤害,实现以人为本的通用人工智能。

04

图模互补的机制

图模互补的机制,可以分为两种,即“模宗”和“图宗”:

7919060421909354c128fb9779377806.png

模宗:大模型为主,知识图谱为辅,把知识图谱作为增强大模型的能力,也可以称之为知识图谱增强的大模型。

图宗:知识图谱为主,大模型为辅,把大模型作为增强知识图谱的能力,也可以称之为大模型增强的知识图谱。

当然,看到这两个词,很多人可能会想起《笑傲江湖》中的“剑宗”和“气宗”,真正能够笑傲江湖的,并不需要强分高低,而是适者生存。在“模宗”和“图宗”中也是一样,适合于场景,能够满足用户需求的,才是最好的!强分高下并非明智之举。至于拿着

  • 7
    点赞
  • 20
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
文广是一个知识图谱pdf文件的名称。知识图谱是指一种用于组织和表示知识的图形化知识库。它基于语义网络和本体论的理念,通过连接实体之间的关系来展示知识的结构和逻辑。而PDF(Portable Document Format)是一种用于跨平台文档显示和传输的文件格式。知识图谱pdf文件相当于将知识图谱以PDF格式进行了保存和展示。 知识图谱pdf文件的好处是它可以使知识的交流和分享更加便捷和高效。通过将知识图谱保存为PDF文件,可以确保它的完整性和稳定性,从而方便在不同的计算机和操作系统上进行阅读和共享。此外,PDF文件还可以包含超链接、书签和索引等功能,使用户能够更方便地浏览和导航知识图谱中的内容。 文广可能是知识图谱的作者或创建者。他可能是一位研究人员、教育工作者或技术专家,研究或应用知识图谱在特定领域的知识组织和表示。知识图谱对于各行各业都有广泛的应用,例如自然语言处理、智能搜索、智能问答系统等等。文广可能是和知识图谱相关领域的专家,他通过创建知识图谱pdf文件来传播和分享他的研究成果或专业知识。 综上所述,知识图谱pdf文广是指一个由文广创建的用于展示和分享知识图谱的PDF文件。知识图谱通过图形化方式展示了知识的结构和逻辑关系,并通过PDF文件的跨平台和便捷性,使得知识的交流和分享更加高效和方便。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值