图机器学习课程笔记2

饕餮梼杌之徒

已于 2022-10-07 11:21:10 修改

阅读量1.6k

点赞数

文章标签：维生素吃多了会上火 GNN 图机器学习

于 2022-02-25 14:15:10 首次发布

本文链接：https://blog.csdn.net/qq_43646600/article/details/123120691

版权

维生素C吃多了会上火-个人CSDN博文目录
 cs224w（图机器学习）2021冬季课程学习笔记集合

1.思维大纲

在这里插入图片描述

2.链路

1.链路预测任务：回顾

任务是根据现有链接预测新链接
在测试时，对节点对（没有现有链接）进行排名，并预测前 𝐾 节点对
关键是为一对节点设计特征

2.链路预测任务的两种表述

随机丢失的链接：删除一组随机链接，然后旨在预测它们
随着时间的推移链接：给定𝐺[𝑡0,𝑡0′]，输出预测在时间𝐺[𝑡1,𝑡1′]出现的边的排序列表L

3.基于相似性进行链路预测

方法：对于每对节点 (x,y) 计算分数 c(x,y)【例如，c(x,y) 可以是 x 和 y 的共同邻居的数量】，按递减分数 c(x,y) 对 (x,y) 进行排序，将前 n 对预测为新链接，查看这些链接中的哪些实际出现在𝐺[𝑡1,𝑡1′]

4.三种特征化网络中两个节点之间关系的描述符

a.Distance-based feature

两个节点之间的最短路径距离，然而这并没有捕捉到邻域重叠的程度

b.Local neighborhood overlap

捕获两个节点𝒗𝟏和𝒗𝟐之间共同邻居
Common neighbors:|𝑁 𝑣1 ∩𝑁 𝑣2 |
Jaccard系数
Adamic-Adar 指数

c.Global neighborhood overlap

Local neighborhood overlap，如果两个节点没有任何共同的邻居，度量值始终为零。但是，这两个节点将来可能仍可能连接。
Global neighborhood overlap通过考虑整个图来解决限制。
Katz 指标可以区分不同的邻居节点不同的影响力。Katz 指标给邻居节点赋予不同的权重, 对于短路径赋予较大的权重, 而长路径赋予较小的权重
A_uv:矩阵A的A_uv的值
P_uv^(K):节点u和v之间长度为K的路径的数量
P_uv^(k)=A^k_uv:点u和v之间长度为K的路径的数量,等于邻接矩阵A的k次幂的A_uv的值

S_v1v2= $\sum_{l=1}^{\infty}$ $\beta$ ^l $A$ ^l_v1v2
0<𝛽 <1: discount factor
𝛽会给比较长的距离以比较小的权重

Katz矩阵计算：
$S=\beta$ $A+\beta$ ² $A$ ² $+$ $\beta$ ³ $A$ ³ $+$ $...$
$S =$ $\sum_{i=1}^{\infty}$ $\beta$ ⁱ $A$ ⁱ $-(I-\beta$ $A)$ ^-1 $- I$
在这里插入图片描述

3.图特征和图核

目标：我们想要表征整个图结构的特征
背景：kernels
kernels广泛用于传统的 ML 进行图级预测
想法：设计kernels而不是特征向量
内核简介：核函数(Kernels)
图内核：测量两个图之间的相似性
Graphlet Kernel
Weisfeiler-Lehman Kernel

1.graph kernal的关键思想

设计图特征向量𝜙(𝐺)
Bag-of-Words (BoW)
bag-of-words相当于是把文档表示成一个向量，每个元素代表对应word出现的概率，此处讲述的特征抽取方法也将图变成bag-of-something的形式，将图表示成一个向量，每个元素代表对应something出现的概率（这个something可以是node, degree）

2.Graphlet Kernel

a. $g$ _k:节点为k的其中一个图

在这里插入图片描述

b. $f$ _G $= (g$ ₁ $, g$ ₂ $, g$ ₃ $, ..., g n)$ $[g$ _i $]\in$ $G$

表示在图 $G$ 中每个 $g$ _i出现的次数

在这里插入图片描述

c.graphlet kernel计算

𝐾 (𝐺,𝐺′) =𝒇_𝐺^T𝒇_𝐺′
问题：如果 𝐺 和 𝐺′ 有不同的大小，这将极大地扭曲值
解决方案：对每个特征向量进行归一化
$h$ _G $= f$ _G $\div$ $S u m (f$ _G $)$
𝐾 (𝐺,𝐺′) =𝒉_𝐺^T𝒉_𝐺′

d.graphlet kernel不足之处

计算量太大了
1.在具有n个节点的图中计算大小为K的graphlet,枚举需要n^k次方
$C_{k}^{n}$ $\approx$ $n$ ^k
2.最坏的情况是不可避免的，因为子图同构测试（判断一个图是否是另一个图的子图）是 NP-hard[完全子图问题]

3.Weisfeiler-Lehman Kernel

目标：设计一个高效的图特征描述符𝜙(𝐺)
思路：利用邻域结构迭代,丰富节点词汇
算法：Color refinement

a.Color refinement[颜色细化]

为每个节点 𝑣 分配初始颜色 $C$ ⁽⁰⁾ $(v)$
迭代地细化节点颜色：
$C$ ^(k+1) $(v) =$ $HASH(\{C$ ^(k) $v),\{C$ ^(k) $(u)\})其中$ u $\in$ $N (v)$ 其中 HASH 将不同的输入映射到不同的颜色
经过𝐾颜色细化步骤， $C$ ^(k+1) $(v)$ 总结了𝐾-hop邻域的结构