CAS-KG——图数据处理算法与模型

最新推荐文章于 2023-11-24 15:04:07 发布

晴晴_Amanda

最新推荐文章于 2023-11-24 15:04:07 发布

阅读量1k

点赞数 1

分类专栏：知识图谱与语义计算文章标签：深度学习知识图谱

本文链接：https://blog.csdn.net/qq_38293297/article/details/105918019

版权

知识图谱与语义计算专栏收录该内容

12 篇文章 7 订阅

订阅专栏

说明：CAS是国科大的简称，KG是知识图谱的缩写，这个栏目之下是我整理的国科大学习到的知识图谱的相关笔记。

课程目标

了解以知识图谱为代表的大数据知识工程的基本问题和方法
掌握基于知识图谱的语义计算关键技术
具备建立小型知识图谱并据此进行数据分析应用的能力

教学安排
详情请见博客：CAS-KG——课程安排

1. 图概述

（1）图基本概念

图是由顶点（vertex）集合以及顶点之间的关系集合组成的一种数据结构：
$G = (V, E)$
- 𝑉 = {𝑥|𝑥 ∈ 某个数据对象} ，是顶点的有穷非空集合；
- 𝐸 = {(𝑥, 𝑦)|𝑥, 𝑦 ∈ 𝑉} 或𝐸 = {< 𝑥, 𝑦 > |𝑥, 𝑦 ∈ 𝑉 && 𝑃𝑎𝑡ℎ(𝑥, 𝑦)}是顶点之间关系的有穷集合，也叫做边（edge）集合。
  - 𝑃𝑎𝑡ℎ(𝑥, 𝑦)表示从 x 到 y 的一条单向通路, 它是有方向的。

（2）图分类

无向图（Undirected graph）
有向图（Directed graph）
带权图（Weighted graph）
属性图：

（3）图数据处理的挑战

图数据特点及其处理的挑战
➢ 可变大小（结点和边）
➢ 结点无序
➢ 不同结点的局部连接不同
➢ 结点之间相互依赖（iid不成立）
➢ 结点依赖的非线性关系
➢ …

2. 基本图算法

（1）基本遍历算法

图遍历：从图的某一顶点开始，按某种算法不重复地访问图的所有顶点

广度优先遍历 BFS

在这里插入图片描述

深度优先遍历 DFS

在这里插入图片描述

（2）路径搜索算法

**实际问题：**下图为某网络结构拓扑图，各边上的数据为相邻路由器间的开销，求router1到router7开销最小的网络通路。
在这里插入图片描述
**最短路径问题：**在带权图中，求两个顶点之间所有可达路径中，边的权值之和最小的那一条路径

Dijkstra 算法

在这里插入图片描述

Floyd 算法

在这里插入图片描述

（3）图算法应用

最小生成树

定义：

最小生成树符合树的特征，无回路，除根结点外，每个结点都与唯一的双亲结点相连
符合生成树的特征：包含了图G=(V, E)的全部n个顶点，自身的n-1条边都是集合E的元素
边的权重和在G的所有生成树中最小

Prim算法

在这里插入图片描述

Kruskal算法

在这里插入图片描述

拓扑排序

有向无环图：不存在环的有向图，又称DAG图；
拓扑排序：对于一个有向无环图G，找到一个有顶点组成的序列，要求该序列应包含G的所有顶点，且每个顶点只出现一次，且在后面的顶点一定没有通向前面所有顶点的路径。

在这里插入图片描述

3. 图信息传播算法

若干定义：

𝑛 × 𝑛 邻接矩阵 𝐴.
➢ 𝐴(𝑖,𝑗) = 从结点𝑖到结点𝑗的权重
➢ 无向图中𝐴(𝑖,𝑗)=𝐴(𝑗, 𝑖), （𝐴是对称矩阵）
𝑛 × 𝑛 转移矩阵 $P$
➢ 𝑃 行和为1（概率分布，随机变量）
➢ 𝑃(𝑖,𝑗) = 从结点𝑖跳到（转至）结点𝑗的概率 = 𝐴(𝑖,𝑗)/∑𝒋𝐴(𝑖,𝑗)
𝑛 × 𝑛 Laplacian矩阵 𝐿.
➢ 𝐿 𝑖,𝑗 = ∑𝒋𝐴 𝑖,𝑗 − 𝐴 𝑖,𝑗 = 𝐷 − 𝐴
➢ 无向图中是半正定对称矩阵
➢ 奇异矩阵（绝对有个最小特征值为0）

随机游走算法

概率分布

$x_t(i)$ = 对象在时刻 $t$ 位于结点 $i$ 的概率
$x_{t+1}(i)$ = $\sum\nolimits_j$ (位于结点 $j$ 的概率) $\to i)$
= $_jx_t(j)*P(j,i)$
$x_{t+1}= x_tP = x_{t-1} *P*P= x_{t-2} *P*P*P = …=x_0 P^t$
当游走一定/无穷步数之后对象位于哪个结点？

算法实现

在这里插入图片描述
算法演化：Co-Ranking

动机: 以前的应用大多局限于同构网络，如出版物之间的引用网络。如何处理异构网络中的联合排序问题。
思路：
➢ 作者排名高，那么他写的论文排名也高；
➢ 论文排名高，那么写这篇论文的作者排名也高；

算法演化：DivRank

在这里插入图片描述

子集传播模型-HITS

子集传播模型：把互联网网页按照一定规则划分成两个甚至是多个子集。其中，某个子集具有特殊性质，很多算法会从这些具有特殊性质的子集出发，给予子集内网页初始值，之后根据这个特殊子集内网页和其他网页的链接关系，按照一定方式将权值传递到其他网页
HIST算法是子集传播算法的代表算法。
HIST算法将网页分为Hub页面和Authority页面。
➢ Authority页面是指与某个领域或者某个话题相关的高质量页面，
比如视频领域中优酷等网站首页即该领域的高质量网页。
➢ Hub页面则是包含很多指向高质量Authority页面链接的网页，
比如hao123可以认为是一个典型的高质量Hub网页。
假设1：一个好的Authority页面会被很多Hub页面指向。
假设2：一个好的Hub页面会指向很多好的Authority页面

在这里插入图片描述

标签传播算法 Label Propagation

在这里插入图片描述
基于图的半监督算法：多标签分类

半监督算法

基于图的半监督算法：LP

4. 图神经网络模型图神经网络简介

（1）GNN简介

图神经网络缘起

图数据常见特点

结构可变
• 除图片像素外都没有固定排列的邻居
• 有的图为有向边，有的为无向边
扩展度和并行化
• 很多图数据有巨大规模

传统前馈网络、RNN、CNN难以处理这样的数据
-Transformer本质上属于一种图神经网络

图数据的常见任务

图的表示学习
➢ 得到整个图的向量表示
➢ 得到每个节点的向量表示
图数据上的自编码器
图结构的生成
图上的分类、链接预测任务

图数据的简便处理方法

遍历图结构得到结点序列，当做普通序列使用神经网络处理
➢ Neural AMR（Seq2Seq处理AMR的先序遍历）
依照图中边的方向传播隐层状态
➢ Recursive LSTM （句法树作为输入）

图数据 ≠ 计算图

流行框架将神经网络实现为一个计算图
➢ 结点表示函数，边表示反向传播路径
➢ 神经网络可以输入普通数据，或图数据
图神经网络特指输入数据为图的模型，而不是本身构建为图的模型

图的表示方法
在这里插入图片描述
图的矩阵表示

拉普拉斯矩阵

在这里插入图片描述

相关算法（应用）：谱聚类

从图论的角度来说，聚类的问题就相当于一个图分割问题

给定一个图𝐺 = (𝑉, 𝐸)，顶点集𝑉表示各个样本，带权的边表示各个样本之间的相似度，谱聚类的目的便是要找到一种合理的分割图的方法，使得分割后形成若干个子图
• 连接不同子图的边的权重（相似度）尽可能低
• 同子图内的边的权重（相似度）尽可能高
如何把图的顶点集分割/切割为不相交的子图，并
➢ 连接不同子图的边的权重（相似度）尽可能低
➢ 同子图内的边的权重（相似度）尽可能高
可以让被割掉各边的权值和最小
➢ Graph表示为邻接矩阵的形式，记为𝑊，其中 𝑤𝑖𝑗是节点 i 到节点 j 的权值，如果两个节点不是相连的，权值为零。设 𝐴 和 𝐵 为Graph 的两个子集（没有交集），那么两者之间的 𝑐𝑢𝑡 可以正式定义为：

谱聚类算法流程

求特征值并取前 k 个最小的，将对应的特征向量排列起来，再按行进行 K-means 聚类
➢ 根据数据构造一个Graph，Graph 的每一个结点对应一个数据点，将相似的点连接起来，并且边的权重用于表示数据之间的相似度。把这个Graph 用邻接矩阵的形式表示出来，记为。

➢ 把 W 的每一列元素加起来得到𝑁个数，把它们放在对角线上（其他地方都是零），组成一个𝑁 ∗ 𝑁的矩阵，记为𝐷。并令𝐿 = 𝐷 − 𝑊。

➢ 求出 L 的前 k 个特征值（在从小到大的顺序），以及对应的特征向量{𝑣𝑘}。

➢ 把这𝑘个特征（列）向量排列在一起组成一个𝑁 ∗ 𝑘的矩阵，将其中每一行看作 𝑘 维空间中的一个向量，并使用 K-Means 算法进行聚类。

（2）图神经网络

GNN中的两类信息操作：滤波/转换
在这里插入图片描述
GNN中的两类信息操作：池化/聚合

图信息过滤/转换

基于谱的图神经模型

图卷积模型：基于谱学习的方法

在这里插入图片描述

基于谱学习的图神经网络模型缺陷

以上谱方法虽然可以实现结点计算的局部化，但依然存在很多问题

图的任何扰动都会导致特征矩阵的基产生变化
所学习的参数限制于特定领域，不能用于不同的图
整个图需要加载到内存中计算
拉普拉斯矩阵仅用于无向图

基于空间的图神经模型

在这里插入图片描述

NLP中的图神经网络模型

Seq2Seq的应用
➢ 机器翻译、聊天系统
➢ 语义解析、代码生成
➢ Image/Video Caption
Seq2Seq的挑战
➢ 仅能处理输入为序列数据的形式，无法处理树、图等复杂结构
➢ 树、图等结构转换为序列数据会丢失信息
➢ 自然语言序列常常需要提供一些额外信息
Graph2Seq的需求很多（Graph2Graph目前研究较少）
➢ 自然语言具有多层次性、结构性
➢ 图是一种描述复杂内容的通用语言