技术动态 | 知识图谱赋能的知识工程:理论、技术与系统

转载公众号 | 计算机科学编辑部


196bd82e49d47dcd31dffd68d562ef0a.png

「2023年第3期」

知识图谱是人工智能在知识工程理论和技术发展中的前沿。知识图谱方法、技术与应用在新一代人工智能由“感知智能”迈向“认知智能”的过程中扮演重要角色。近年来,随着大规模知识图谱的发布和知识图谱赋能系统的应用,国内外学术界和产业界均在多个维度对知识图谱赋能的知识工程进行了研究与开发。虽然国内外学者在知识图谱及相关方向上已取得若干研究成果,但知识图谱赋能的知识工程尚未形成成熟的理论体系、技术方法、应用与系统实践,仍有众多有待解决的具有挑战性的难题。本专题旨在促进知识图谱赋能的知识工程研究、开发与应用,及时、集中、全面地报道知识图谱赋能的知识工程在理论、方 法、技术、系统与应用实践等方面的最新成果和进展。

a4e5de52572b8964dcf5445a59d4d51c.gif

专题特邀编审

557a65416c993391f94eb9c106e39d8d.gif

1a19011c7a52be59a1faf1ed8ec5d2e9.jpeg

3be73def30417e901a8093aa94663ade.jpeg

27eb3575b5cc35a7135c4cf3961e120d.jpeg

48d7aba23f851065758bf5ae0ef69b85.jpeg

1a5b81381ca698b024f4c582b3797573.jpeg

3951fd2dd79b554f8e7746c7bc6d1293.jpeg

3d84d12fa2b75476d84c7c45194cd67e.gif

扫码查看

专题序言&特邀编审简介

1

文 章 阅 读

SS-GCN:情感增强和句法增强的方面级情感分析模型

80ad1cacb73f8a874aab944c81ab7f72.png

李帅  徐彬  韩祎珂  廖同鑫            

摘要: 方面级情感分析(Aspect-Based Sentiment Analysis,ABSA)作为知识图谱下游应用,属于细粒度情感分析任务,旨在理解人们对评价目标在方面层次的情感极性。近年来,相关研究已经取得显著进步,但现有方法侧重于利用句子内的顺序性或句法依赖约束,而没有充分利用上下文词与方面词之间的依赖类型。此外,现有的基于图卷积神经网络模型对节点特征保留的能力不足。针对该问题,首先,在句法依赖树的基础上,充分挖掘上下文词与方面词之间的依赖类型,将其融入依赖图的构建;其次,定义了一个“敏感关系集合”,利用它来构建辅助句以增强特定上下文词与方面词之间的关联性,同时结合情感知识网络SenticNet以增强句子的依赖图,进而改进图神经网络的构建;最后,引入上下文保留机制,来减小节点特征在多层图卷积神经网络中的信息损失。提出的SS-GCN模型将并行学习到的句法表示和上下文表示进行融合以完成情感增强和句法增强。在3个公开数据集上进行了广泛的实验,证明了SS-GCN的有效性。

引用本文:李帅, 徐彬, 韩祎珂, 廖同鑫. SS-GCN:情感增强和句法增强的方面级情感分析模型[J]. 计算机科学, 2023, 50(3): 3-11.

c9ee5926168e1a13926ecb81bf46f533.png

扫码阅读全文

基于动态记忆和双层重构强化的知识图谱至文本转译模型

6f772f7a5d23ef47b2e58507a2f33bf4.png

马廷淮  孙圣杰  荣欢  钱敏峰

摘要: 知识图谱转译文本(Graph-to-Text)是知识图谱领域中一个新的任务,旨在将知识图谱转化为描述该知识的可读性文本。随着近年来研究的不断深入,知识图谱转译文本的生成技术已经被应用于商品评论生成、推荐解释生成、论文摘要生成等领域。现有方法中的转译模型均采用先规划后实现的方式,未能根据已生成文本动态调整规划且未按静态内容规划对知识进行跟踪,导致文本前后语义不连贯。为了提高生成文本语义的连贯性,文中提出了基于动态记忆和双层重构强化的知识图谱至文本转译模型,通过静态内容规划、动态内容规划和双层重构机制这3个阶段,弥补了知识图谱与文本之间的结构化差异,在生成文本的同时侧重关注各三元组中的重要内容。与现有的生成模型相比,该模型不仅能缓解知识图谱与文本之间的结构化差异,还提高了定位关键实体的能力,从而使生成的文本具有更强的事实一致性和语义连贯性。在WebNLG数据集上进行了广泛实验,结果表明,在知识图谱转译文本的任务上,所提模型与现有模型相比,内容规划更加准确,生成文本语句间的逻辑合理且关联性更强,在BLEU,METEOR,ROUGE,CHRF++等指标上优于现有模型。

引用本文:马廷淮, 孙圣杰, 荣欢, 钱敏峰. 基于动态记忆和双层重构强化的知识图谱至文本转译模型[J]. 计算机科学, 2023, 50(3): 12-22.

26a3ac66c7e74f4bd660a8fdec6f5eb3.png

扫码阅读全文

基于关系约束的上下文感知时态知识图谱补全

c5c14c870cf414919bca1127e9fd9add.png

汪璟玢  赖晓连  林新宇  杨心逸

摘要: 现有的时间知识图谱补全模型仅考虑四元组自身的结构信息,忽略了实体隐含的邻居信息和关系对实体的约束,导致模型在时态知识图谱补全任务上表现不佳。此外,一些数据集在时间上呈现不均衡的分布,导致模型训练难以达到一个较好的平衡点。针对这些问题,提出了一个基于关系约束的上下文感知模型(CARC)。CARC通过自适应时间粒度聚合模块来解决数据集在时间上分布不均衡的问题,并使用邻居聚合器将上下文信息集成到实体嵌入中,以增强实体的嵌入表示。此外,设计了四元组关系约束模块,使具有相同关系约束的实体嵌入彼此相近,不同关系约束的实体嵌入彼此远离,以进一步增强实体的嵌入表示。在多个公开的时间数据集上进行了大量实验,实验结果证明了所提模型的优越性。

引用本文:汪璟玢, 赖晓连, 林新宇, 杨心逸. 基于关系约束的上下文感知时态知识图谱补全[J]. 计算机科学, 2023, 50(3): 23-33.

2d1c46d813c3b676cbfbf023b6f92be7.png

扫码阅读全文

基于图神经网络的多信息优化实体对齐模型

afa0141f58f888ad4c000543f0a92313.png

陈富强  寇嘉敏  苏利敏  李克

摘要: 实体对齐是知识融合中的一个关键步骤,旨在发现知识图谱间存在对应关系的实体对。知识图谱融合后可以为下游提供更加广泛而准确的服务。现有的实体对齐模型对实体名称和关系的利用往往不足,在得到实体的向量表示后通过单一的迭代策略或者直接计算得出实体的对齐关系,忽略了部分有用信息,导致实体对齐的结果欠佳。针对上述问题,提出了一种基于图神经网络的多信息优化实体对齐模型。首先,模型的输入融合了实体名称中的单词信息和字符信息,通过注意力机制学习关系的向量表示并利用关系传递信息。在利用实体和关系的预对齐结果修正实体对齐矩阵的基础上,使用延迟接受算法修正部分错误对齐的结果。所提模型在DBP15K的3个子数据集上进行了对比和消融实验。结果表明,相比基线模型,其Hits@1指标分别提高了4.47%,0.82%和0.46%,Hits@10和MRR指标也取得了良好的结果。通过消融实验进一步验证了所提模型的有效性,总体上可以获得更加准确的实体对齐结果。

引用本文:陈富强, 寇嘉敏, 苏利敏, 李克. 基于图神经网络的多信息优化实体对齐模型[J]. 计算机科学, 2023, 50(3): 34-41.

ab5025848e047e39183f58f720ce90d0.png

扫码阅读全文

BGPNRE:一种基于BERT的全局指针网络实体关系联合抽取方法

c383bd927df4997f792192c60fe957d0.png

邓亮  齐攀虎  刘振龙  李敬鑫  唐积强

摘要: 实体-关系联合抽取指从非结构化文本中联合抽取出实体-关系三元组,是信息抽取和知识图谱构建的一项关键任务。文中提出了一种新的基于全局指针网络实体关系联合抽取方法BGPNRE(BERT-based Global Pointer Network for Named Entity-Relation Joint Extraction),首先通过潜在关系预测模块预测文本中蕴含的关系,过滤掉不可能存在的关系,将实体抽取限制在预测的关系子集中;其次通过使用基于关系的全局指针网络,获取所有主客体实体的位置;最后通过全局指针网络通信模块,将主客体位置高效率地解码对齐成一个实体关系三元组。该方法避免了传统管道式方法存在的错误传播问题,同时也解决了关系冗余、实体重叠、Span提取泛化不足等问题。实验结果表明,所提方法在多关系和重叠实体抽取上表现卓越,并且在NYT和WebNLG公共数据集上达到了最先进的水平。

引用本文:邓亮, 齐攀虎, 刘振龙, 李敬鑫, 唐积强. BGPNRE:一种基于BERT的全局指针网络实体关系联合抽取方法[J]. 计算机科学, 2023, 50(3): 42-48.

5476c2e49563957125c69308687838c0.png

扫码阅读全文

基于高阶和时序特征的图神经网络社会化推荐算法研究

3d6d38f0c781305d4b581de38b2637d0.png

于健  赵满坤  高洁  王聪源  李亚蓉  张文彬

摘要: 跨项目社会推荐是一种将社交关系整合到推荐系统中的方法。社会化推荐中包含用户-项目交互图和社交网络图,用户是连接这两个图的桥梁,其表示学习对提升社会化推荐的性能至关重要。然而,现有方法主要使用用户或项目的静态属性和社交网络中的显式朋友关系来进行表示学习,用户和项目交互的时序信息及隐式朋友关系未得到充分利用。因此,在社会化推荐中,如何有效利用时序信息和社交信息成为重要的研究课题之一。文中通过建模用户的隐式朋友和项目的社交属性,提出了一种新颖的基于高阶和时序特征的图神经网络社会化推荐算法(Graph Neural Networks Social Recommendation Based on High-order and Temporal Features)模型,简称HTGSR。HTGSR首先利用门控递归单元对基于项目的用户表征进行建模,以反映用户的近期动态偏好,并定义一个高阶建模单元来提取用户的高阶连通特征,挖掘用户的隐式朋友信息;其次利用注意力机制获取基于社交关系的用户表征;然后提出不同的项目社交网络的构建方式,并利用注意力机制来获取项目表征;最后将用户和项目的潜在表征输入到多层感知机,完成用户对项目的评分预测。在两个数据集上进行详细的实验,并将实验结果与多种类型的推荐算法进行比较,结果表明HTGSR模型在两个数据集上的效果均较优。 

引用本文:于健, 赵满坤, 高洁, 王聪源, 李亚蓉, 张文彬. 基于高阶和时序特征的图神经网络社会化推荐算法研究[J]. 计算机科学, 2023, 50(3): 49-64.

b5099a9d73f47f37bbc46ef1ed1339d6.png

扫码阅读全文

一种静态分析与知识图谱结合的Java冗余代码检测方法

500bf4f5c1e77f58bd3bdf0775feb73f.png

刘昕炜  陶传奇

摘要: 冗余代码普遍存在于商业和开源软件中,它的存在可能会增加内存占用,影响代码可维护性,增加维护成本。快速类型分析算法是当前Java冗余代码检测中常用的静态分析方法,该算法在虚方法分析方面还存在一些不足。XTA是一种调用图构造算法,在处理虚方法的调用方面具有较高的精度和效率。文中提出了一种基于XTA调用图构建算法的方法来检测Java代码中的冗余代码,在一个名为“RCD”(Redundant Code Detection)的工具原型中实现了这种方法,并通过构建知识图谱辅助人工审查,以提高人工审查的效率以及冗余代码检测的可信度。通过在4个开源Java应用程序上的实验对RCD与其他3个冗余代码检测工具进行了比较。实验结果表明,RCD在检测冗余代码的准确性方面相比其他工具提高了1%~30%,同时在检测冗余虚方法的完整性方面提升了4%左右。

引用本文:刘昕炜, 陶传奇. 一种静态分析与知识图谱结合的Java冗余代码检测方法[J]. 计算机科学, 2023, 50(3): 65-71.

5c0109fcd5c4cc345a5e2073b7c0060b.png

扫码阅读全文

细粒度语义知识图谱增强的中文OOV词嵌入学习

de7b7d8122037dfff32c15297873bcf8.png

陈姝睿  梁子然  饶洋辉

摘要: 随着信息化领域的范围不断扩大,许多特定领域的文本语料开始涌现。这些特定领域,如医疗、通信等,由于受到安全性和敏感性的影响,其数据规模通常较小,传统的词嵌入学习模型难以获得有效的结果。另一方面,直接应用现有的预训练语言模型时会出现较多未登录词,这些词汇无法表示成向量,从而影响下游任务的性能表现。许多学者开始研究如何利用细粒度语义信息来得到较高质量的未登录词向量表示。然而,当前的未登录词嵌入学习模型大多针对英文语料,对中文词的细粒度语义信息只能进行简单的拼接或映射,难以在中文未登录词嵌入学习任务中得到有效的向量表示。针对上述问题,首先通过中文构字规则,即中文词所包含的汉字、汉字所包含的部件和拼音等,构建细粒度的知识图谱,使其不仅能涵盖汉字和单词之间的关联关系,还能对拼音和汉字、组件和汉字等细粒度语义信息之间的多元且复杂的关联关系进行表征。然后,在知识图谱上运行图卷积算法,从而对中文词的细粒度语义信息之间以及它们与词语义之间更深层次的关系进行建模。此外,文中通过在子图结构上构建图读出来进一步挖掘细粒度语义信息与词语义信息之间的组成关系,据此提升模型在未登录词嵌入推断中的精准度。实验结果表明,在面对未登录词占比较大的特定语料上的词配对、词相似任务,以及文本分类、命名实体识别等下游任务时,所提模型都取得了更好的性能。

引用本文:陈姝睿, 梁子然, 饶洋辉. 细粒度语义知识图谱增强的中文OOV词嵌入学习[J]. 计算机科学, 2023, 50(3): 72-82.

e4721196d6df0fca06f73cb625cc53dd.png

扫码阅读全文

医学知识图谱研究与应用综述

cf2d77e05cc65310e7ce3e5eec0ccaf5.png

蒋川宇  韩翔宇  杨文蕊  吕博涵  黄小欧  谢夏  谷阳 


摘要: 医学数据数字化推进过程中,如何选择合适的技术来对医学数据进行高效处理和准确分析,是当今医学领域普遍面临的问题。利用具有优秀联想与推理能力的知识图谱技术来对医学数据进行处理与分析,能更好地实现智慧医疗、辅助诊断等应用。医学知识图谱的完整构建过程包括知识抽取、知识融合和知识推理。其中知识抽取可细分为实体抽取、关系抽取和属性抽取,知识融合则主要包括实体对齐和实体消歧。首先,对现今医学知识图谱的构建技术和实际应用进行归纳整理,针对每一具体构建过程阐明技术发展脉络。在此基础上,对相关技术进行介绍并说明其优点和局限性。其次,介绍几个已成熟运用的医学知识图谱。最后,根据知识图谱在医学领域的技术与应用现状,给出未来知识图谱可进行的技术兼应用性的研究方向。

引用本文:蒋川宇, 韩翔宇, 杨文蕊, 吕博涵, 黄小欧, 谢夏, 谷阳. 医学知识图谱研究与应用综述[J]. 计算机科学, 2023, 50(3): 83-93.

0093fc2a7113554482f2e6b5f8040e7b.png

扫码阅读全文

基于表示学习的知识图谱推理研究综述

af0d7f526d7038e4e86332dc752fab23.png

李志飞  赵月  张龑

摘要: 知识图谱以结构化形式描述了现实世界中的客观知识,但面临着构建不完整或者无法处理新增知识等挑战。知识图谱推理方法成为了知识图谱补全和更新的重要手段,该方法旨在基于图谱中已有的事实推断出未知的事实。近年来,基于表示学习的知识图谱推理研究受到了广泛关注,其主要研究思路是将实体和关系嵌入到低维连续向量空间从而进行推理,具有计算效率快、推理性能高等优势。文中以基于表示学习的知识图谱推理方法为研究对象,首先对相关的符号表示、数据集、评价指标、训练方法以及评测任务进行了简要概述;其次介绍了基于平移距离和语义匹配的两种典型知识图谱推理方法;然后对融合多源信息的推理方法进行了分类和梳理,以及详细分析了近期流行的基于神经网络的推理研究进展;最后总结全文,同时对知识图谱推理的未来研究方向进行展望。

引用本文:李志飞, 赵月, 张龑. 基于表示学习的知识图谱推理研究综述[J]. 计算机科学, 2023, 50(3): 94-113.

a4c5b0147a072206e599ff5bb1add912.png

扫码阅读全文

THE END


OpenKG

OpenKG(中文开放知识图谱)旨在推动以中文为核心的知识图谱数据的开放、互联及众包,并促进知识图谱算法、工具及平台的开源开放。

cee1255d76b4ad56b69e74cdea27d0e1.png

点击阅读原文,进入 OpenKG 网站。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值