说明:CAS是国科大的简称,KG是知识图谱的缩写,这个栏目之下是我整理的国科大学习到的知识图谱的相关笔记。
课程目标
- 了解以知识图谱为代表的大数据知识工程的基本问题和方法
- 掌握基于知识图谱的语义计算关键技术
- 具备建立小型知识图谱并据此进行数据分析应用的能力
教学安排
详情请见博客:CAS-KG——课程安排
文章目录
1. 图概述
(1)图基本概念
- 图是由顶点(vertex)集合以及顶点之间的关系集合组成的一种数据结构:
G = ( V , E ) G=(V,E) G=(V,E)- 𝑉 = {𝑥|𝑥 ∈ 某个数据对象} ,是顶点的有穷非空集合;
- 𝐸 = {(𝑥, 𝑦)|𝑥, 𝑦 ∈ 𝑉} 或𝐸 = {< 𝑥, 𝑦 > |𝑥, 𝑦 ∈ 𝑉 && 𝑃𝑎𝑡ℎ(𝑥, 𝑦)}是顶点之间关系的有穷集合,也叫做边(edge)集合。
- 𝑃𝑎𝑡ℎ(𝑥, 𝑦)表示从 x 到 y 的一条单向通路, 它是有方向的。
(2)图分类
- 无向图(Undirected graph)
- 有向图(Directed graph)
- 带权图(Weighted graph)
- 属性图:
(3)图数据处理的挑战
图数据特点及其处理的挑战
➢ 可变大小(结点和边)
➢ 结点无序
➢ 不同结点的局部连接不同
➢ 结点之间相互依赖(iid不成立)
➢ 结点依赖的非线性关系
➢ …
2. 基本图算法
(1)基本遍历算法
图遍历:从图的某一顶点开始,按某种算法不重复地访问图的所有顶点
广度优先遍历 BFS
深度优先遍历 DFS
(2)路径搜索算法
**实际问题:**下图为某网络结构拓扑图,各边上的数据为相邻路由器间的开销,求router1到router7开销最小的网络通路。
**最短路径问题:**在带权图中,求两个顶点之间所有可达路径中,边的权值之和最小的那一条路径
Dijkstra 算法
Floyd 算法
(3)图算法应用
最小生成树
定义:
- 最小生成树符合树的特征,无回路,除根结点外,每个结点都与唯一的双亲结点相连
- 符合生成树的特征:包含了图G=(V, E)的全部n个顶点,自身的n-1条边都是集合E的元素
- 边的权重和在G的所有生成树中最小
Prim算法
Kruskal算法
拓扑排序
- 有向无环图:不存在环的有向图,又称DAG图;
- 拓扑排序:对于一个有向无环图G,找到一个有顶点组成的序列,要求该序列应包含G的所有顶点,且每个顶点只出现一次,且在后面的顶点一定没有通向前面所有顶点的路径。
3. 图信息传播算法
若干定义:
- 𝑛 × 𝑛 邻接矩阵 𝐴.
➢ 𝐴(𝑖,𝑗) = 从结点𝑖到结点𝑗的权重
➢ 无向图中𝐴(𝑖,𝑗)=𝐴(𝑗, 𝑖), (𝐴是对称矩阵) - 𝑛 × 𝑛 转移矩阵
P
P
P
➢ 𝑃 行和为1(概率分布,随机变量)
➢ 𝑃(𝑖,𝑗) = 从结点𝑖跳到(转至)结点𝑗的概率 = 𝐴(𝑖,𝑗)/∑𝒋𝐴(𝑖,𝑗) - 𝑛 × 𝑛 Laplacian矩阵 𝐿.
➢ 𝐿 𝑖,𝑗 = ∑𝒋𝐴 𝑖,𝑗 − 𝐴 𝑖,𝑗 = 𝐷 − 𝐴
➢ 无向图中是半正定对称矩阵
➢ 奇异矩阵(绝对有个最小特征值为0)
随机游走算法
概率分布
- x t ( i ) x_t(i) xt(i) = 对象在时刻 t t t 位于结点 i i i 的概率
-
x
t
+
1
(
i
)
x_{t+1}(i)
xt+1(i) =
∑
j
\sum\nolimits_j
∑j(位于结点
j
j
j 的概率)
∗
P
(
j
→
i
)
*P(j \to i)
∗P(j→i)
= ∑ j x t ( j ) ∗ P ( j , i ) ∑_jx_t(j)*P(j,i) ∑jxt(j)∗P(j,i) - x t + 1 = x t P = x t − 1 ∗ P ∗ P = x t − 2 ∗ P ∗ P ∗ P = … = x 0 P t x_{t+1}= x_tP = x_{t-1} *P*P= x_{t-2} *P*P*P = …=x_0 P^t xt+1=xtP=xt−1∗P∗P=xt−2∗P∗P∗P=…=x0Pt
- 当游走一定/无穷步数之后对象位于哪个结点?
算法实现
算法演化:Co-Ranking
- 动机: 以前的应用大多局限于同构网络,如出版物之间的引用网络。如何处理异构网络中的联合排序问题。
- 思路:
➢ 作者排名高,那么他写的论文排名也高;
➢ 论文排名高,那么写这篇论文的作者排名也高;
算法演化:DivRank
子集传播模型-HITS
-
子集传播模型:把互联网网页按照一定规则划分成两个甚至是多个子集。其中, 某个子集具有特殊性质, 很多算法会从这些具有特殊性质的子集出发,给予子集内网页初始值,之后根据这个特殊子集内网页和其他网页的链接关系,按照一定方式将权值传递到其他网页
-
HIST算法是子集传播算法的代表算法。
-
HIST算法将网页分为Hub页面和Authority页面。
➢ Authority页面是指与某个领域或者某个话题相关的高质量页面,
比如视频领域中优酷等网站首页即该领域的高质量网页。
➢ Hub页面则是包含很多指向高质量Authority页面链接的网页,
比如hao123可以认为是一个典型的高质量Hub网页。 -
假设1:一个好的Authority页面会被很多Hub页面指向。
-
假设2:一个好的Hub页面会指向很多好的Authority页面
标签传播算法 Label Propagation
基于图的半监督算法:多标签分类
半监督算法
基于图的半监督算法:LP
4. 图神经网络模型图神经网络简介
(1)GNN简介
图神经网络缘起
图数据常见特点
- 结构可变
• 除图片像素外都没有固定排列的邻居
• 有的图为有向边,有的为无向边 - 扩展度和并行化
• 很多图数据有巨大规模
传统前馈网络、RNN、CNN难以处理这样的数据
-Transformer本质上属于一种图神经网络
图数据的常见任务
- 图的表示学习
➢ 得到整个图的向量表示
➢ 得到每个节点的向量表示 - 图数据上的自编码器
- 图结构的生成
- 图上的分类、链接预测任务
图数据的简便处理方法
- 遍历图结构得到结点序列,当做普通序列使用神经网络处理
➢ Neural AMR(Seq2Seq处理AMR的先序遍历) - 依照图中边的方向传播隐层状态
➢ Recursive LSTM (句法树作为输入)
图数据 ≠ 计算图
- 流行框架将神经网络实现为一个计算图
➢ 结点表示函数,边表示反向传播路径
➢ 神经网络可以输入普通数据,或图数据
- 图神经网络特指输入数据为图的模型,而不是本身构建为图的模型
图的表示方法
图的矩阵表示
拉普拉斯矩阵
相关算法(应用):谱聚类
从图论的角度来说,聚类的问题就相当于一个图分割问题
- 给定一个图𝐺 = (𝑉, 𝐸),顶点集𝑉表示各个样本,带权的边表示各个样本之间的相似度,谱聚类的目的便是要找到一种合理的分割图的方法,使得分割后形成若干个子图
• 连接不同子图的边的权重(相似度)尽可能低
• 同子图内的边的权重(相似度)尽可能高 - 如何把图的顶点集分割/切割为不相交的子图,并
➢ 连接不同子图的边的权重(相似度)尽可能低
➢ 同子图内的边的权重(相似度)尽可能高 - 可以让被割掉各边的权值和最小
➢ Graph表示为邻接矩阵的形式,记为𝑊,其中 𝑤𝑖𝑗是节点 i 到节点 j 的权值,如果两个节点不是相连的,权值为零。设 𝐴 和 𝐵 为Graph 的两个子集(没有交集),那么两者之间的 𝑐𝑢𝑡 可以正式定义为:
谱聚类算法流程
求特征值并取前 k 个最小的,将对应的特征向量排列起来,再按行进行 K-means 聚类
➢ 根据数据构造一个Graph,Graph 的每一个结点对应一个数据点,将相似的点连接起来,并且边的权重用于表示数据之间的相似度。把这个Graph 用邻接矩阵的形式表示出来,记为。
➢ 把 W 的每一列元素加起来得到𝑁个数,把它们放在对角线上(其他地方都是零),组成一个𝑁 ∗ 𝑁的矩阵,记为𝐷。并令𝐿 = 𝐷 − 𝑊。
➢ 求出 L 的前 k 个特征值(在从小到大的顺序),以及对应的特征向量{𝑣𝑘}。
➢ 把这𝑘个特征(列)向量排列在一起组成一个𝑁 ∗ 𝑘的矩阵,将其中每一行看作 𝑘 维空间中的一个向量,并使用 K-Means 算法进行聚类。
(2)图神经网络
GNN中的两类信息操作:滤波/转换
GNN中的两类信息操作:池化/聚合
图信息过滤/转换
基于谱的图神经模型
图卷积模型:基于谱学习的方法
基于谱学习的图神经网络模型缺陷
以上谱方法虽然可以实现结点计算的局部化,但依然存在很多问题
- 图的任何扰动都会导致特征矩阵的基产生变化
- 所学习的参数限制于特定领域,不能用于不同的图
- 整个图需要加载到内存中计算
- 拉普拉斯矩阵仅用于无向图
基于空间的图神经模型
NLP中的图神经网络模型
- Seq2Seq的应用
➢ 机器翻译、聊天系统
➢ 语义解析、代码生成
➢ Image/Video Caption - Seq2Seq的挑战
➢ 仅能处理输入为序列数据的形式,无法处理树、图等复杂结构
➢ 树、图等结构转换为序列数据会丢失信息
➢ 自然语言序列常常需要提供一些额外信息 - Graph2Seq的需求很多(Graph2Graph目前研究较少)
➢ 自然语言具有多层次性、结构性
➢ 图是一种描述复杂内容的通用语言
5. 总结
图数据处理的挑战
- 可变大小(结点和边)
- 结点无序
- 不同结点的局部连接不同
- 结点之间相互依赖(iid不成立)
- 结点依赖的非线性关系
图数据处理的未来发展
- 针对不同任务的图构建
- 更深层的图神经网络
- 高效图处理算法
- 图结构的自动生成
- 动态图和异构图的处理
- 图数据与其他数据的联合处理