工赋开发者社区 | 「新一代知识图谱关键技术」最新2022进展综述

最新推荐文章于 2024-02-26 00:55:39 发布

工赋开发者社区

最新推荐文章于 2024-02-26 00:55:39 发布

阅读量658

点赞数

文章标签：知识图谱人工智能

本文链接：https://blog.csdn.net/Exiaomeng88/article/details/126715110

版权

近年来,国内外在新一代知识图谱的关键技术和理论方面取得了一定进展,以知识图谱为载体的典型应用也逐渐走进各个行业领域,包括智能问答、推荐系统、个人助手等．然而,在大数据环境和新基建背景下,数据对象和交互方式的日益丰富和变化, 对新一代知识图谱在基础理论、体系架构、关键技术等方面提出新的需求,带来新的挑战．将综述国内外新一代知识图谱的关键技术研究发展现状,重点从非结构化多模态数据组织与理解、大规模动态图谱表示学习与预训练模型、神经符号结合的知识更新与推理３方面对国内外研究的最新进展进行归纳、比较和分析．最后,就未来的技术挑战和研究方向进行展望。

https://crad.ict.ac.cn/CN/10.7544/issn1000-1239.20210829

伴随着过去１０年浪潮,人工智能发展方兴未艾,正处于由感知智能到认知智能转变的关键时期．知识图谱作为大数据时代的知识工程集大成者,是符号主义与连接主义相结合的产物,是实现认知智能的基石．知识图谱以其强大的语义表达能力、存储能力和推理能力,为互联网时代的数据知识化组织和智能应用提供了有效的解决方案．因此,新一代知识图谱的关键技术研究逐渐受到来自工业界和学术界的广泛关注．

知识图谱最早于２０１２年由 Google 正式提出[１],其初衷是为了改善搜索,提升用户搜索体验．知识图谱至今没有统一的定义,在维基百科中的定义为:“Google知识图谱(Googleknowledgegraph) 是 Google的一个知识库,其使用语义检索从多种来源收集信息,以提高 Google搜索的质量．”从当前知识图谱的发展看来,此定义显然是不够全面的,当前知识图谱的应用俨然远超其最初始的搜索场景,已经广泛应用于搜索、问答、推荐等场景中．比较普遍被接受的一种定义为“知识图谱本质上是一种语义网络(semanticnetwork),网络中的结点代表实体 (entity)或者概念(concept),边代表实体∕概念之间的各种语义关系”．一种更为宽泛的定义为“使用图 (graph)作为媒介来组织与利用不同类型的大规模数据,并表达明确的通用或领域知识”．从覆盖的领域来看,知识图谱可以分为通用知识图谱和行业知识图谱;前者面向开放领域,而后者则面向特定的行业．随着知识图谱在各行业的应用落地,知识图谱技术的相关研究得到了大量研究者的关注．以知识图谱为基础的典型应用也逐渐走进各个行业领域,包括智能问答、推荐系统、个人助手、战场指挥系统等．

传统的知识图谱研究领域主要围绕传统的数据存储、知识获取、本体融合、逻辑推理以及知识图谱应用等方面．文献[２]详细综合和分析了知识图谱存储管理最新的研究进展．文献[３]从知识表示学习、知识获取与知识补全、时态知识图谱和知识图谱应用等方面进行了全面的综述．文献[４]则重点对面向知识图谱的知识推理相关研究进行了综述．

然而,在大数据环境和新基建背景下,数据对象和交互方式的日益丰富和变化,对新一代知识图谱在基础理论和关键技术等方面提出新的需求,也带来新的挑战．和已有的知识图谱研究综述相比,本文将从众多最新的知识图谱研究方法中,对３方面的新一代知识图谱关键技术和理论做分析:１)非结构化多模态数据组织与理解; ２)大规模动态图谱表示学习与预训练模型; ３)神经符号结合的知识更新与推理．本文将综述国内外新一代知识图谱关键技术研究发展现状,对国内外研究的最新进展进行归纳、比较和分析,就未来的技术挑战和研究方向进行展望．

1. 非结构化多模态数据组织与理解

1.1 非结构化多模态数据组织

“模态”的定义较多,可以直观地理解为不同类型的多媒体数据,也可以作为一个更加细粒度的概念,区分模态的关键点可以理解为数据是否具有异构性．例如,对于某个歌手,互联网上可以找到他的照片和歌曲视频,同时也有相关的文本信息(百科、新闻等)以及具体的歌曲音频．图片、视频、文本、语音这４种数据,可以被理解为该对象的多模态数据．目前主要的非结构化多模态知识图谱如表１所示:

DBpedia [５]作为近１０年来知识图谱研究领域的核心数据集,其丰富的语义信息中也包含了大量的非结构化数据,如文本描述和实体图片．目前 DBpedia包含了超过２６０万个实体,且每个实体具有唯一的全局标识符．以此为基础,越来越多的数据发布者将自己的数据通过 SameAs 关系链接到 DBpedia资源,使 DBpedia一定程度上成为多类型数据组织的中心．目前,围绕 DBpedia的互联网数据源网络提供了约４７亿条信息,涵盖地理信息、人、基因、药物、图书、科技出版社等多个领域．

Wikidata [６]中也存在大量的多模态数据资源, 它是维基媒体基金会(WikimediaFoundation)推出的知识图谱,也是维基媒体数据组织和管理的核心项目．Wikidata充分利用了知识图谱的图数据模型, 综合了 Wikivoyage,Wiktionary,Wikisource等各类结构化和非结构化数据,其目标是通过创造维基百科全球管理数据的新方法来克服多类数据的不一致性,已经成为维基媒体最活跃的项目之一,越来越多的网站都从 Wikidata获取内容以嵌入提供的页面浏览服务． IMGPedia [７]是多模态知识图谱的早期尝试．相较于 DBpedia和 Wikidata,其更关注在已有的知识图谱中补充非结构化的图片信息．

IMGPedia的核心思路是首先提取 WikimediaCommons中的多媒体资源(主要是图片),然后基于多媒体内容生成特征用于视觉相似性的计算,最后通过定义相似关系的方式将图片内容信息引入到知识图谱中,此外其还链接了 DBpedia和 DBpediaCommons来提供上下文和元数据．IMGPedia的优势在于开创性地定义了知识图谱中图像内容的“描述符”,也就是视觉实体属性(诸如灰度等),同时根据这些描述符去计算图片相似度,方便人们进行相似图片的查找．但 IMGPedia中定义的“描述符”种类较少,且图片之间的关系单一．

MMKG [８]项目旨在对不同知识图谱(Freebase, YAGO,DBpedia)的实体和图片资源进行对齐

最低0.47元/天解锁文章

工赋开发者社区

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
工赋开发者社区 | 「新一代知识图谱关键技术」最新2022进展综述

对新一代知识图谱在基础理论、体系架构、关键技术等方面提出新的需求,带来新的挑战．将综述国内外新一代知识图谱的关键技术研究发展现状,重点从非结构化多模态数据组织与理解、大规模动态图谱表示学习与预训练模型、神经符号结合的知识更新与推理３方面对国内外研究的最新进展进行归纳、比较和分析
复制链接

扫一扫