异质信息网络和知识图谱

最新推荐文章于 2023-07-20 11:09:18 发布

饮冰l

最新推荐文章于 2023-07-20 11:09:18 发布

阅读量7.1k

点赞数 39

分类专栏：图异质图文章标签：数据挖掘机器学习深度学习

本文链接：https://blog.csdn.net/qq_44015059/article/details/109399929

版权

图同时被 2 个专栏收录

66 篇文章 41 订阅

订阅专栏

异质图

13 篇文章 15 订阅

订阅专栏

1. 前言

最近在研究异质信息网络，发现知识图谱无论是在建模方式还是下游任务都与异质信息网络有很大的相似性。

在这里简单介绍一下知识图谱的相关概念和从网上找来的知识图谱嵌入综述类的文章或者博客进行总结。
比较分析一下异质信息网络表示和知识图谱嵌入之间的异同

文中截图来源于自己做的组会分享ppt，非常简陋…

部分比较精美的图片来源于知乎文章的插图和 https://www.zhihu.com/people/Jhy1993 一片分享ppt

2. 异质信息网络和知识图谱

2.1 异质信息网络

在这里插入图片描述
现实生活中形形色色的系统，通常由大量类型各异、彼此交互的组件构成，例如生物、社交和计算机系统等。利用异质网络建模这种类型丰富且交互复杂的数据，可以保留更全面的语义及结构信息。

相较于同质网络，异质网络建模带来了两方面的好处：

（1）异质网络不仅可以自然融合不同类型对象及其交互，而且可以融合异构数据源的信息。在大数据时代来源不同的数据仅捕获了部分甚至是有偏差的特征，异质图网络可以对这些数据进行综合处理。因此异质网络建模不仅成为解决大数据多样性的有力工具，而且成为宽度学习的主要方法。
（2）异质网络包含丰富的结构和语义信息，为发现隐含模式提供了精准可解释的新途径。例如，推荐系统的异质网络中不再只有用户和商品这两种对象，而是包含店铺、品牌等更全面的内容，关系也不再只有购买，而是含有收藏、喜爱等更精细的交互。基于这些信息，利用元路径和元图等语义挖掘方法，可以产生更精细的知识发现。

在这里插入图片描述

基于以上分析，在设计具有异质图注意机制的图神经网络体系结构时，需要满足以下新需求。

1.Heterogeneity of graph
异构性是异质图的内在属性，即具有各种类型的节点和边。例如，不同类型的节点具有不同的特征，其特征可能落在不同的特征空间中。仍然以IMDB为例，演员的特征可能涉及到性别、年龄和国籍。另一方面，电影的特征可能涉及到情节和演员。如何处理如此复杂的结构信息，同时保留多样的特征信息，是一个迫切需要解决的问题。
Semantic-level attention
异质图中涉及到不同的有意义和复杂的语义信息，这些语义信息通常通过[32]元路径反映出来。异质图中不同的元路径可以提取不同的语义信息。如何为具体任务选择最有意义的元路径并融合语义信息是一个有待解决的问题。语义级注意的目的是学习每个元词的重要性，并为它们分配适当的权重。还是以IMDB为例，《终结者》既可以通过电影-演员-电影MAM(都由施瓦辛格主演)连接到《终结者2》，也可以通过电影-电影(都拍摄于1984年)MYM连接到《鸟人》。然而，在确定电影《终结者》的类型时，MAM通常比MYM扮演更重要的角色。因此，平等对待不同的元路径是不现实的，而且会削弱一些有用的元路径所提供的语义信息。
Node-level attention
在异质图中，节点可以通过不同类型的关系进行连接，例如元路径。给定一个元路径，每个节点都有许多基于元路径的邻居。如何区分这些邻居之间的细微差别，选择具有信息的邻居是需要解决的问题。对于每个节点，节点级注意的目的是了解基于元路径的邻居的重要性，并为它们分配不同的注意值。还是以IMDB为例，当使用元路径电影 - 导演 - 导演 - 电影(同一位导演拍摄的电影)时，《终结者》将通过导演詹姆斯•卡梅隆连接到《泰坦尼克号》和《终结者2》。为了更好地把《终结者》定义为科幻电影，模型应该多关注《终结者2》，而不是《泰坦尼克号》。因此，如何设计一个能够发现相邻区域细微差异并正确掌握其权重的模型将是我们所需要的。

2.2 知识图谱

知识图谱定义
知识图谱，本质上，是一种揭示实体之间关系的语义网络。–不同的实体可以抽象成不同类型的信息

信息：是指外部的客观事实。举例：这里有一瓶水，它现在是7°。
知识：是对外部客观规律的归纳和总结。举例：水在零度的时候会结冰。

“客观规律的归纳和总结” 似乎有些难以实现。Quora 上有另一种经典的解读，区分 “信息” 和 “知识” 。
在这里插入图片描述

知识图谱是由一条条知识组成，每条知识表示为一个SPO三元组(Subject-Predicate-Object)。

在知识图谱中，我们用RDF形式化地表示这种三元关系。RDF(Resource Description Framework)，即资源描述框架，是W3C制定的，用于描述实体/资源的标准数据模型。RDF图中一共有三种类型，International Resource Identifiers(IRIs)，blank nodes 和 literals。下面是SPO每个部分的类型约束：

Subject可以是IRI或blank node
Predicate是IRI
Object三种类型都可以。

IRI：我们可以看做是URI或者URL的泛化和推广，它在整个图中唯一定义了一个实体/资源，和我们的身份证号类似。
Literal：是字面量，可以把它看做是带有数据类型的纯文本。
blank ：node简单来说就是没有IRI和literal的资源。

在这里插入图片描述

我们其实可以认为知识图谱就包含两种节点类型，资源和字面量。借用数据结构中树的概念，字面量类似叶子节点，出度为0。例如“罗纳尔多·路易斯·纳萨里奥·德·利马”作为字面量，是不能有指向外部节点的边。在这里插入图片描述

2.3 异质图与知识图谱

异质图神经网络跟知识图谱都是以图的形式进行表示，都是为了得到节点的分布式表示。但是他们的原理方法上有点不一样：

对于异质图神经网络而言，其节点表示学习也就是图嵌入从宏观上来讲大致分为两个步骤：

学习目标节点基于元路径的特征嵌入 (HGT：邻居节点基于边的注意力表示)
学习基于不同元路径的语义级别的嵌入。(HGT：不同邻居节点的消息传递)

对于异质图网络而言，不同节点的连接关系更像是一种标注的邻居间信息聚合的标签，对于标签本身的含义关系没有进行深入挖掘（这里有一类研究方向是元路径的选择也就是不同类型节点的链接—随机游走获取邻居、针对于下游任务学习元路径），来声明利用神经网络进行信息聚合时的不同策略。这里的策略在异质图神经网络中可以表现为GAT注意力机制或者Transformer的注意力机制(个人认为其实从根本上看是一样的，都是为了区分不同连接类型采取不同的处理方式)。至于第二步语义级别的嵌入在我所看的论文中全部采取注意力机制，理由同上

而知识图谱是受到word2vec能自动发现implicit relation的启发（king-man=quene-women），重点在学习图数据时强调的是节点跟关系的表示，知识图谱在应用更关注于关系建模。但是两中方法也可以互相借鉴的。例如 WWW 2020 MAGNN: Metapath Aggregated Graph Neural Network for Heterogeneous Graph Embedding 在基于元路径的邻居信息聚合方式上将知识图谱嵌入中的 RotatE 方法泛化到异质信息网络中，由于异质信息网络和知识图谱的相似性，两者互相借鉴的创新方法还有待进一步研究

后续会整理一下知识图谱嵌入相关的方法