CS224W摘要15.Deep Generative Models for Graphs

最新推荐文章于 2024-03-24 11:35:24 发布

oldmao_2000

最新推荐文章于 2024-03-24 11:35:24 发布

阅读量930

点赞数

分类专栏： CS224W（完结）文章标签：机器学习深度学习自然语言处理图机器学习图深度学习生成

本文链接：https://blog.csdn.net/oldmao_2001/article/details/120673776

版权

CS224W（完结）专栏收录该内容

19 篇文章 13 订阅

订阅专栏

CS224W: Machine Learning with Graphs
公式输入请参考：在线Latex公式
这节和上节都是讲图的生成模型，上节讲传统方法，这节讲DL方法。
本节两个任务：
1.Realistic graph generation（重点）
2.Goal-directed graph generation（创建带有Constraint或者objective的图），例如：Drug molecule generation/optimization

Graph Generative Models

这块先复习生成模型的知识点，之前在别的地方有讲过。大略记一下：
从给定的数据中通过采样得到图 $p_{data}(G)$ （这里的 $d a t a$ 相当于所有的真实数据，是无穷无尽的，没法穷举，因此只能尽量多的采样来样本来推测整体数据）
通过采样的数据，从中可以学习到数据的分布 $p_{model}(G)$ ，再利用 $p_{model}(G)$ 来生成图
在这里插入图片描述

Setup

要从一个点数据集 ${x_i\}$ 中学习一个生成模型。
$p_{data}(x)$ 是真实数据分布，这个分布是真实存在但由于数据的无穷性又无法直接学到，因此我们可以对其进行采样： $x_i\sim p_{data}(x)$
$p_{model}(x;\theta)$ 是我们要学习的模型， $\theta$ 是模型参数，可以根据模型来估计真实的数据分布 $p_{data}(x)$ 。
这个过程类似人口普查，我们不可能完全统计所有人，但是我们可以通过采样某个小区域的人口，来推断整个区域的人口的分布。
整个过程大概就是两个步骤
1.学习到模型
2.模型生成图结构

步骤1

学习到模型就是要使得 $p_{model}(x;\theta)$ 越接近 $p_{data}(x)$ 越好，这里通常使用（对数）最大似然的方式来进行估计Maximum Likelihood：
$\theta^*=\underset{\theta}{\argmax}\mathbb{E}_{x\sim p_{data}}\log p_{model}(x|\theta)$
找到最优化的参数 $\theta^*$ 使得模型最有可能生成观测数据 $x$

步骤2

模型生成图结构就是从 $p_{model}(x;\theta)$ 采样数据，常用方法：
先从搞屎分布中采样：
$z_i\sim N(0,1)$
然后对采样结果 $z_i$ 通过 $f(\cdot)$ （一般用DNN）进行变化：
$x_i=f(z_i;\theta)$
得到的结果 $x_i$ 就是服从复杂分布的结果

Auto-regressive models

这里使用的这个模型和VAE，GAN等模型不一样，VAE，GAN一般有两个部分构成：encoder+Decoder或者generator+discriminator，两个部分分别做数据的表征和生成，这个模型只有一个部分，直接用来做数据的density estimation and sampling。
模型类似语言模型，使用条件概率来表示联合概率：
$p_{model}(x;\theta)=\prod_{t=1}^np_{model}(x_t|x_1,\cdots,x_{t-1};\theta)$
如果是语言模型，则是用前 $t - 1$ 个词 $x_{t-1}$ 预测第 $t$ 个词 $x_t$ ，从而得到整个句子。
这里的图模型， $x_t$ 代表第 $t$ 个动作（添加节点或边）。
下面看具体的模型。

GraphRNN

GraphRNN: Generating Realistic Graphs with Deep Auto-regressive Models.

尤里组的工作，感觉整个课程基本都是老师的研究方向。。。
将生成图的过程看成一个序列，例如对于下面的图：
在这里插入图片描述
每个步骤记如下：

其中 $\pi$ 是图 $G$ 的节点序列（这个当然有必要，因为之前说图是无序的，不知道这里如果不一样生成的模型会不会相同¹），经过扩展可以将其对应到添加节点和边的动作序列： $S^{\pi}$
在这里插入图片描述

图与序列的映射

由于动作包含两层意思：
Node-level：每次添加一个节点；
在这里插入图片描述

Edge-level：为新加节点与已存在的节点建立边（可以多条）
在这里插入图片描述
从邻接矩阵上来看，可以看到两个序列（实际上是序列的序列）关系如下：

在这里插入图片描述
经过图到序列的转化后，就将图生成问题变成了序列生成问题，不过需要处理两个序列：

Generate a state for a new node (Node-level sequence)
Generate edges for the new node based on its state (Edge-level sequence)

RNN

这里复习了一把RNN，RNN是用来处理序列数据的。
它吃输入序列，并更新它的隐状态
隐状态包含之前所有序列的信息
更新关键就是RNN Cells
在这里插入图片描述
$s_t$ : State of RNN after step $t$
$x_t$ : Input to RNN at step $t$
$y_t$ : Output of RNN at step $t$
RNN cell保护三个可训练参数： $W, U, V$

(1) Update hidden state:
$s_t=\sigma(W\cdot x_t+U\cdot s_{t-1})$
(2) Output prediction:
$y_t=V\cdot s_t$

GraphRNN

GraphRNN包含节点RNN和边RNN，节点RNN生成的state会作为输入喂给边RNN，边RNN将以序列方式对新节点是否连接已有节点进行预测。
在这里插入图片描述
节点RNN是横向，边RNN是纵向。
对于原始的RNN模型，他每次的输出要作为下一个时刻的输入，开始信号是start of sequence token (SOS)，终止信号是end of sequence token (EOS)

但是这里的输出是不是概率，因此我们想要把原始RNN做第一个修改就是让输出是一个概率，并让生成边的方式是从概率中进行丢硬币决定。
在这里插入图片描述

训练

这里使用Teacher Forcing来辅助训练，上面说了原始RNN吃的去前一个时间步的输出和隐状态，但是这样不好，因为训练迭代过程初始阶段，RNN预测能力非常弱，几乎不能给出好的结果。如果某一个cell产生了垃圾结果，必然会影响后面所有cell的学习。也就是说会导致学习速度变慢，难以收敛。
Teacher Forcing不使用上一个时刻的输出作为下一个时刻的输入，而是直接使用训练数据ground truth)的对应上一项作为下一个时刻的输入。
在这里插入图片描述
注意看图中 $y^*_t=x_{t+1}$
当然这个trick有缺点，就是训练过程中抄答案，测试的时候性能可能会掉。
使用Binary cross entropy做损失函数，第一个时间步的损失可以写为：
$L=-[y_1^*\log(y_1)+(1-y_1^*)\log(1-y_1)]$

测试

每个时间步的输出 $y_t$ 是一个标量，并服从伯努利分布：
在这里插入图片描述
注意这里每个时间步的输出要进行采样在丢进下一个时间步里面，例如：
上图中的 $x_2\sim 0.9$ 表示 $x_2$ 有0.9的概率为1（有边），0.1的概率没有边，最后采样出来得到 $x_2=1$ ，然后再进入RNN cell。

训练实例

假设观测到的图结构：
在这里插入图片描述

假设1号是初始节点，先加2号

在这里插入图片描述
然后边RNN预测2号节点是否连接1号节点

更新节点RNN（吃边RNN的隐状态+上一个节点的输出）

然后边RNN预测3号节点是否连接1号和2号节点

在这里插入图片描述
继续更新节点RNN：

由于这个节点不会连接其他所有节点，因此迭代停止：

每一次边预测结果要和真实结果（红色）做交叉熵计算：

Backprop through time（BTT）方向：

测试例子

将预测出来的概率做边的采样，注意看红色的 ${\color{Red} \sim}$ ，采样结果丢下个时间步的节点RNN
在这里插入图片描述

问题及解决方法

主要是生成过程计算量很大，可以看到，每次添加新的点，那么这个点要和其他所有已经存在的点做边RNN预测，但是这个可以优化，因为当前加入的节点并不是和所有节点相连。
在这里插入图片描述
考虑BFS遍历，例如：

这里可以看到节点4没有连接节点1，因为节点1的BFS遍历已经完毕，因此节点5以及后面的节点不会连接到节点1，因此只需要记录前面两个时间步即可。这样可以明显减少边RNN的工作步骤：
在这里插入图片描述
上图中右边 $M = 3$ ，这里应该是图中节点最大度值。
例如：

这个图最大度为1，按顺序的邻接矩阵为：

如果从1号节点开始BFS：

从2号节点开始BFS

可以看到这个解决方案无论从哪个节点开始做BFS，最后的 $M = 4$ 不变，但是对于度较大的图效果不怎么好，如果是完全图，那么效果为0。
没看原文，不知道是否有改进，是不是可以边RNN使用不同长度？但是估计要pad。
坐等大神解答。

效果

主要是看生成的图与训练的图相似度如何。

可视化效果

在这里插入图片描述

GraphRNN无论在生成非常规的网格图或是社区图上效果都不错，尤其是前者，传统方法基本都不行，在社区图的效果上MMSB是专门为社区图设计的，效果也还不错。

属性统计相似度

Earth Mover Distance (EMD)，这个常识直接贴过来
Compare similarity between 2 distributions.
Intuition: Measure the minimum effort that move earth from one pile to the other
Maximum Mean Discrepancy (MMD)
Compare similarity between 2 sets, based on the similarity between set elements
元素是常量：

元素是分布：

最后结果：
在这里插入图片描述

深度图生成模型的应用（药物）

貌似生物和化学是尤里的主攻方向。。。
这种生成方式称为：Goal-Directed Graph Generation，有三个特点：

Optimize a given objective (High scores)
e.g., drug-likeness
Obey underlying rules (Valid)
e.g., chemical validity rules
Are learned from examples (Realistic)
Imitating a molecule graph dataset

1和2是难点。为了解决他们，这里引入RL，用于判断生成结果（给出positive or negative reward）。

在这里插入图片描述

GCPN

Graph Convolutional Policy Network(GCPN) combines graph representation + RL，包含三个部分
Graph Neural Network captures graph structural information
Reinforcement learning guides the generation towards the desired objectives
Supervised training imitates examples in given datasets

	GCPN	GraphRNN
	模仿给定训练数据集以序列方式生成图结构。	模仿给定训练数据集以序列方式生成图结构。
预测方式	GNN 获取表征	RNN
是否能针对某个目标生成图	RL辅助，可以	不可以
表达能力	GNN表达能力强	RNN表达能力比GNN弱
计算复杂度	慢，每一次生成一个节点，要和所有已存在节点进行是否有边判断，但是分子结构较小，无所谓	BFS优化后比较快

在这里插入图片描述

GCPN概览

在这里插入图片描述
a.插入节点
bc.使用GNN预测节点之间的边
d.检查分子有效性chemical validity
ef.计算reward
这里的reward有两种：
Step reward: Learn to take valid action
§ At each step, assign small positive reward for valid action
Final reward: Optimize desired properties
§ At the end, assign positive reward for high desired property

GCPN的训练

第一部分是监督学习，Train policy by imitating the action given by real observed graphs. Use gradient.这个步骤和前面的GraphRNN差不多
第二部分是强化学习，Train policy to optimize rewards. Use standard policy gradient algorithm.（具体可学习斯坦福CS234）
整个反向传播也是分两个部分：
在这里插入图片描述

结果

针对数学的优化，例如： $\log P$
在这里插入图片描述
QED（quantitative estimate of drug-likeness）

针对某个限制的优化，例如对solubility溶解度的优化：

后面才看到解释，这里的序列是随机sample出来的，后面课程后面会有讨论，就是用BFS顺序最优。 ↩︎

oldmao_2000

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
打赏
1
评论
CS224W摘要15.Deep Generative Models for Graphs

文章目录Graph Generative ModelsSetup步骤1步骤2Auto-regressive modelsGraphRNN图与序列的映射RNNGraphRNN训练测试训练实例测试例子问题及解决方法效果可视化效果属性统计相似度深度图生成模型的应用（化学）CS224W: Machine Learning with Graphs公式输入请参考：在线Latex公式这节和上节都是讲图的生成模型，上节讲传统方法，这节讲DL方法。本节两个任务：1.Realistic graph generatio
复制链接

扫一扫