开源开放 | OpenKG联合蚂蚁集团发布基于SPG的知识图谱引擎——OpenSPG

2023年中国计算机大会上,蚂蚁集团与OpenKG联合发布了OpenSPG,一种国产工业级知识图谱语义标准,用于企业级知识图谱的构建与应用。该标准结合学术界和产业界力量,强调深度上下文和与AI技术的融合,以解决传统知识图谱的局限。OpenSPG开源项目包括知识构建和推理的PythonSDKkNext,以及与LPG的适配接口,将推动知识图谱技术的开放与创新。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

296d2eedd8d5dc9843bf46a338b51ec9.png

2023中国计算机大会(CNCC)于10月26日在沈阳盛大召开,在CNCC第七届知识图谱技术论坛上,蚂蚁集团联合国内著名的OpenKG开放知识图谱社区,共同发布了国产工业级知识图谱语义标准OpenSPG(Open Semantic-enhanced Programmable Graph, OpenSPG)并开源,诚挚邀请业界同仁一起共建这个国产化知识图谱引擎。

Github地址:https://github.com/OpenSPG/openspg

SPG官网:https://spg.openkg.cn/

本次发布我们非常荣幸地邀请到了蚂蚁技术研究院院长陈文光,浙江大学计算机科学与技术学院教授陈华钧,天津大学智能与计算学部教授王鑫,蚂蚁集团智能引擎研究员周俊,蚂蚁集团安全机器智能研究员王维强,蚂蚁集团智能引擎技术总监顾进杰,以及OpenSPG联合发起人同济大学特聘研究员王昊奋、蚂蚁集团智能引擎技术总监梁磊等各位专家学者,一起来鉴证国产化语义标准及引擎框架的诞生。

d509f2a1942a339d7fa5a8809468f6f4.png

OpenSPG的诞生是一次学术界和产业界完美结合的产物,已经吸引了中科院计算所,浙江大学,之江实验室,同济大学,天津大学,恒生电子,浙江创邻科技,达观数据,海乂知信息科技,蚂蚁集团等多个科研和企业专家的深度参与,我们欢迎更多行业机构和专家一起应用和推广OpenSPG。

1

从通用常识到领域图谱,企业级知识图谱的发展机遇与挑战

cc976cc388e7ed0b356410a55321c4a3.png

图1:知识图谱技术发展的机遇与挑战

从通用知识图谱到领域知识管理,知识图谱技术发展需与时俱进

知识图谱(Knowledge Graph)是一种用知识语义、图结构来建模世界的一种方法,它能表示事物(Things)之间的语义结构,刻画真实世界万物之间的深度关联。自2012年Google提出知识图谱以来,知识图谱技术在企业级的应用也在不断的发展。

如图1所示,知识图谱技术发展之初,是以公开数据为基础构建常识图谱,旨在提升搜索推荐的用户体验。自2018年以来,知识图谱在各个垂直行业得到广泛应用。2021年,Gartner预测基于知识图谱技术为基础的Data Fabric将成为下一代数据架构。到2022年底,大语言模型(Large Language Model, LLM)大火,席卷全球,然而LLM存在幻觉、复杂推理不足、实效性差和计算成本高等问题,限制了其在行业中的应用。而知识图谱强时效、弱泛化、强事实、强解释,LLM弱时效、强泛化、弱事实、弱解释,呈现出较强的互补性,知识图谱和LLM双向驱动也受到了越来越多的学者和企业的青睐。

随着图谱技术在企业级应用中的不断深化,企业对知识图谱的需求早已超越其固有的定义,成为企业级数字化升级的关键依赖,加速企业海量数据的知识化升级和集成在企业中也得到了越来越多的重视。如图2所示,《SPG白皮书》指出,企业级知识图谱应用对知识的深度上下文(即Deep Context)有更多感知要求,例如为满足薄数据客群的画像覆盖和风险洞察的需要,以及为满足知识管理和深度线索洞察所需的知识要素深度关联的要求等。原有的SPG三元组二元静态模式已无法满足企业时空多元动态关联的要求。

c2db6f137bb5b52c2b9f29dcb28a587a.png

图2:企业级知识管理需要实现从二元静态向多元动态的模式跃迁

下一代企业级知识图谱,高效融合大数据与AI技术体系

企业级知识图谱技术的发展给行业带来机遇,同时也面临挑战。要实现从静态常识到深度精度、可解释性的跃迁,需要超越通用知识图谱的限制,实现从通用常识、基础事实到Deep Context深度上下文的转变。这样,企业才能深入了解数据,并从中获得深刻的洞察,从而实现更精准的决策。在技术上的发展中,不仅需要关注图谱构建、对齐和融合等数据层面的问题,还需要注重如何与AI技术体系(如大型模型技术)结合,提升数据的泛化性,进一步释放生产力。在大模型时代,大模型补足了理解语言的能力,而知识图谱则丰富了表示知识的方式。两者的深度结合必将为人工智能提供更全面、可靠、可控的知识处理方法。通过企业海量数据的知识化,实现数据的知识化表示,通过知识符号化,构建机器可理解的知识表示与查询能力。

SPG(Semantic-enhanced Programmable Graph) :语义增强可编程框架,是蚂蚁知识图谱平台经过多年金融领域业务的支撑,沉淀的一套基于属性图的语义表示框架。它创造性地融合了LPG结构性与RDF语义性,既克服了RDF/OWL语义复杂无法工业落地的问题,又充分继承了LPG结构简单与大数据体系兼容的优势。SPG不仅解决了LPG图谱中知识维护成本的问题,诸如:关系构建维护的成本高带来的定义为属性/关系的抉择困难、同实体表现为多类型的建模往往需要依靠冗余新类型实现等。还通过拓展语义表达能力,解决了复杂领域图谱的建模能力受限的问题,诸如:LPG/RDF应用在事理图谱中会遇到无法表达完整的事件脉络、对领域知识多元异构性表达能力不足(比如事件时空多元结构等)、知识间逻辑依赖带来的一致性及传导推理等等。更详细的介绍请移步参阅蚂蚁集团和OpenKG联合发布的《蚂蚁集团 x OpenKG 联合发布:新一代《知识语义框架SPG》白皮书》。通过SPG框架,我们可以更加高效地构建和管理图谱数据,同时可以更好地支持业务需求和应用场景。由于SPG框架具有良好的可扩展性和灵活性,新的业务场景可以通过扩展领域知识模型及开发新算子,快速构建其领域模型和解决方案。

2

OpenSPG引擎本次开源发布

如图3所示,为OpenSPG的技术框架,OpenSPG是以SPG框架为基础设计和实现的知识图谱开放引擎,它为领域图谱构建提供了明确的语义表示、逻辑规则定义、算子框架(构建、推理)等能力,支持各厂商可插拔的适配基础引擎、算法服务,构建自定义的解决方案。

a3f19bd0e067d0606c47ed8c1bcc5c75.png

图3:基于SPG的知识图谱引擎

本次开源的OpenSPG引擎的各模块详细介绍请参阅github的readme文档,主要技术优势可以总结为如下三个方面:

充分融合LPG的结构性与RDF的语义性

SPG白皮书对知识主体的定义包括实体、事件和概念。其中实体是业务相关性比较强的客观对象,通多属性、多关系刻画的多元复合结构类型,如用户、企业、商户等。事件则是加入时间、空间等约束的时空多元类型,如通过NLP、CV等抽取出来的行业事件、企业事件、诊疗事件或因购买、核销、注册等行为产生的用户行为事件。概念则表达为实体/事件从具体到一般的抽象,表述的是一组实体实例或事件实例的集合,是一种分类体系。相对静态,也是常识知识,具有较强复用性,如人群标签、事件分类、行政区划分类等。为简化企业应用,标准类型也放到了常识概念中。

如何区分实体和概念:客观世界中存在的对象都有复杂的数据结构表示,是一系列事实组成的多元异构模型,在大数据体系中往往表现为用户、商户、企业等结构化事实和画像信息。而常识知识则是人类通过观察多种事实,对若干客观事实的归纳和总结,如品牌、类目、标签、行政区划等等,通常会有业务部门、企业、行业、国家、世界组织等对其专业发布,具有较强的组织共识性。

c2d7f67212ad7eb5a31722c56fcce9dc.png

图4:SPG的结构与语义融合模型示意

如图4,SPG的结构性表现为对客观事实的组织和描述,语义性则是概念体系的因果、顺承、组合、上下位等知识概念之间的语义关联。概念型知识作为事实知识属性/关系的类型,也就是取值范围和约束,这样也实现了结构性与语义性的有机融合,实体/事件实例可以通过归纳关联概念,也可以通过演绎验证概念对新实例的适应性。未来,我们将推出SPG系列实战课程,详细解读SPG的语义模型和业务应用。

数据知识化,有效衔接大数据与AI体系

在当前AI技术蓬勃发展的时代,知识图谱作为高效的知识表示和建模手段,需要为AI应用提供更高效的知识获取、融合和推理能力,并且其发展也需要与时俱进。SPG白皮书也指出,传统的RDF/OWL为知识交换而生,难以应对企业海量数据下的知识管理,面向AI体系的高效符号表示也存在较多不足。

SPG构建了一个衔接大数据与AI技术系统的知识表示框架和服务引擎。SPG白皮书中定义L1-L3层次的语义框架表示。L1为领域模型约束(SPG Domain Constraint),实现知识的分类约束,构建事件/实体和概念常识/标准类型之间的归纳、传导、演绎等基础的领域语义能力。L2为知识演化(SPG Evolving),借助NLP技术能力实现单类型内部各实例的链指、消歧、归一等。L3为知识推理(SPG Reasoning),借助语义谓词和逻辑规则构建可符号化表示的推理能力。通过L1级模型实现与大数据系统的高效连接,并通过知识构建pipeline面向企业结构化、非/半结构化数据提供知识构建和管理框架,实现企业海量数据到SPG语义模型的转化和集成。通过L3级模型实现与AI技术系统的高效联动,通过语义谓词和逻辑规则构建知识要素之间的逻辑与语义关联,进一步构建面向AI系统的标准化符号表示,为AI应用提供通用的知识查询、逻辑规则、样本生成、知识联想等能力。

OpenSPG发布了可编程SDK:kNext

本次OpenSPG开源重磅推出了面向知识构建与图谱推理的端到端python SDK kNext,它为知识生产及推理抽象了标准化的Operator,方便算法能力的分类聚合及Runtime流程的标准化,总体框架如图5所示。以知识构建为例,目前已定义了知识抽取、实体链指、属性标化、实体归一等Operator,算法可以基于Operator interface及相关python api定义具体算子实现,系统自动完成DAG的组装及Runtime的部署,实现业务/算法易变部分与SPG核心引擎的解耦,降低业务接入过程中的开发成本。

e16183606dcc5d76797d12e6ffd1ef8e.png

图5:kNext技术框架

下一步,kNext将持续升级,为社区提供更加灵活易用的算子和框架能力,方便和LLM等其他AI基础能力的集成,基于Operator及DAG构建SPG组件链(Components Chain), 为业务提供更加易用的SPG+LLM联动的图谱构建和应用研发范式。

除此之外,SPG基础引擎定义了SPG与LPG的兼容和适配。在白皮书中,蚂蚁集团与创邻科技合作定义了SPG-Engine的基础接口。SPG到LPG的适配核心包括三类扩展结构:SPG2LPG Schema translator、SPG2LPG Instance Builder和LPG2SPG RDG Loader。本次OpenSPG开源了SPG2LPG部分的引擎适配接口。下一步,OpenSPG将进一步开源LPG2SPG RDG部分的可扩展接口,以方便其他优秀图数据库厂商进行适配。同时,我们也将率先推出适配TuGraph和GalaxyBase的完整版本。敬请期待。

3

OpenSPG与OpenKG的社区联动计划

SPG与OpenKG社区将紧密合作,共同构建一个技术开放的体系和知识开源的新范式。如图6所示,首先,SPG作为OpenKG的核心语义表示框架,SPG将在OpenKG工具栈中得到广泛推广和应用。同时,我们将与知识生产和图谱推理领域的优秀算法和模型资源进行接入,打造一个开放的系统,支撑各方共同参与和建设。通过这种联动,我们将以更高效、更开放的方式推进企业级知识图谱技术的发展,为企业提供更好的知识管理和智能化决策支持。

31ccd39201dbe0b056a187704b93a51a.png

图6:共同构建技术开放体系

我们将联合OpenKG整合/建设优秀的领域常识知识图谱,衔接LLM技术体系,为用户提供开放的通用和领域知识服务。如图7所示,通过联动,我们将推动知识的共享和开放,为企业和用户创造更多的价值和机会。这一合作将为知识图谱技术的发展开辟新的道路,推动知识开源的理念在行业中的落地和应用。

ec997bd4edea9f8d1167e20d2c502650.png

图7:共同构建知识开源的新范式

4

未来发布计划

8baa641205e9f8ab6a851bf1b90d70d1.png

5

如何使用

欢迎访问我们的Github,留下您宝贵的反馈:https://github.com/OpenSPG/openspg

白皮书下载和更多帮助信息可访问SPG官网:https://spg.openkg.cn/


OpenKG

OpenKG(中文开放知识图谱)旨在推动以中文为核心的知识图谱数据的开放、互联及众包,并促进知识图谱算法、工具及平台的开源开放。

770247e8dcadd977e1c2a0e72c5f50e1.png

点击阅读原文,进入 OpenKG 网站。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值