OpenKG
大模型专辑
导读 知识图谱和大型语言模型都是用来表示和处理知识的手段。大模型补足了理解语言的能力,知识图谱则丰富了表示知识的方式,两者的深度结合必将为人工智能提供更为全面、可靠、可控的知识处理方法。在这一背景下,OpenKG组织新KG视点系列文章——“大模型专辑”,不定期邀请业内专家对知识图谱与大模型的融合之道展开深入探讨。本期邀请到蚂蚁集团知识引擎负责人梁磊分享“SPG与LLM双向驱动的关键问题和应用探索”,本文整理自梁磊老师在10月26日沈阳举办的CNCC知识图谱论坛上的分享。
分享嘉宾 | 梁磊 蚂蚁集团
笔记整理 | 邓鸿杰(OpenKG)
内容审定 | 陈华钧
01
引言
企业级海量数据的知识化已日趋成为行业共识,通过海量数据的知识化集成,可以加速数据标准化、消除/减少歧义、链接数据孤岛等。知识图谱作为表达能力更强的数据建模形式,也需要不断技术升级与时俱进,SPG(Semantic-enhanced Programmable Graph)是蚂蚁集团和OpenKG联合发布的新一代工业级知识语义框架,是蚂蚁在多元化企业级图谱应用场景中的经验总结。在企业数字化升级、AI技术赋能千行百业的当下,期望通过OpenSPG构建加速企业海量数据知识化集成,知识符号化高效衔接AI系统的知识表示和图谱引擎框架,以期推动可控AI技术的业务落地。
Github地址:https://github.com/OpenSPG/openspg
SPG官网:https://spg.openkg.cn/
图 1. OpenSPG总体架构
02
知识图谱的与时俱进
知识图谱本身是多学科技术的综合体,也经常被笑谈为“也只有知识图谱能描绘清楚知识图谱的技术体系”,它生来就与大数据技术、NLP技术、图计算、图学习、AI技术体系等相互融合互通,也正因为此,知识图谱也更容易吸收融合其他的技术优势。大模型时代亦是如此,通过大模型强大的语言能力补足知识抽取/构建效率的不足,知识图谱技术积极进取、拥抱开放。
对内,通过SPG语义框架,图谱技术升级语义表示体系,从二元静态升级到多元动态,更好的实现事实的感知、常识知识归纳沉淀、深度上下文关联等,通过一套体系理解和使用知识图谱,避免对玲琅满目图谱概念的理解;对外,图谱技术积极拥抱新一代AI技术体系,如大模型(Large Language Model, LLM),实现二者的双驱动增强,定义融合互通的技术范式和关键问题,借助LLM强大的语言理解能力,为基于非/半结构化数据的图谱构建提效,同时在用户问答中,语言要素和语义结构的理解也会更加精准。
图2. SPG总体语义框架
图2展示了SPG白皮书中发布的总体语义框架。本文从基于SPG知识表示的知识图谱视角出发,分析了需要解决的关键问题。通过不断的技术突破,我们希望大幅降低知识图谱的构建成本,持续降低领域图谱的应用门槛。同时,结合大模型在领域落地的典型场景,我们致力于构建SPG + LLM双驱动的行业落地范式,以提升领域应用的可控性和可信度。
另外,基于知识图谱解决LLM幻觉的问题是一项长期且复杂的工作。这需要构建涵盖各行各业的领域图谱,并实现它们之间的语义关联和迁移。在这个过程中,还有许多复杂的问题需要解决。目前,SPG的探索主要从垂直领域出发,致力于攻克SPG与LLM相互增强的关键技术,并积累领域知识图谱,以提升领域应用的可控性和可信度。
03
SPG与LLM双驱增强
首先,我们看下SPG和LLM各自及双向驱动能解决的问题范围,以企业中商户经营与风控应用场景为例,如表1所示,LLM和SPG应用的算法任务主要可以分为三类:1) LLM only:由于领域专业性和事实性的要求,LLM在商户经营与风控领域尚未有明确可落地的场景;2) LLM + SPG双驱动:主要体现在知识问答、报告生成等用户交互类场景中,比如前文提到的AI电话唤醒受害者和反洗钱智能审理报文生成等。此外,还有知识要素抽取、实体链指等知识构建类场景。文献中详细描述了LLM与SPG的双驱动,包括KG增强的LLM、LLM