文章信息
摘要
提出了无监督网络嵌入只使用负样本进行训练。我们的方法是基于一个新的对比目标,启发到著名的最稀疏割问题。为了解决潜在的优化问题,我们引入了一个拉普拉斯平滑技巧,它使用图卷积算子作为低通滤波器来平滑节点表示。所得到的模型由一个作为编码器的GCN型结构和一个简单的损失函数组成。值得注意的是,我们的模型没有使用正样本,而只使用负样本进行训练,这不仅使实现和调优变得更加容易,而且还显著减少了训练时间。最后,对真实世界的数据集进行了广泛的实验研究。结果清楚地表明,与Graphsage、G2G和DGI等强基线相比,我们的新模型在准确性和可扩展性方面的优势。
1. introduction
介绍GNN Graph embedding, DGI MINE DIM 并说:这三个对比学习 计算成本高于更简单的对比目标,因为在训练过程中使用了互信息估计和图级表示。
本文基于著名的图划分问题,提出了一种新的无监督网络嵌入方法,即最疏切网络嵌入(SCE)。模型简单、有效、易于训练,在准确性和计算时间方面往往优于半监督和无监督的基线。
提出了一个新的网络嵌入的对比型优化公式,它从经典的最稀疏割问题中得到了启发。然后,我们建议使用拉普拉斯平滑算子(或滤波器)来简化目标函数,这旨在消除对正例子的需要。简而言之,所得到的学习模型由一个GCN结构作为编码器和一个只涉及负样本的损失函数组成。
请注意,我们只使用负样本来训练图的卷积网络,这似乎是违反直觉的。它工作的主要原因是,GCN中的迭代邻域聚合方案隐式地迫使图中附近的节点在嵌入空间中接近。因此,在目标函数中显式地使用正的例子可能是多余的。在实现以前的方法中的一个关键细节是如何抽取正样本。抽样方案的改变可能会导致性能的急剧下降。此外,基于随机游走的方法等有效的方案还引入了额外的计算负担。相反,我们的方法不需要正样本,这不仅使实现和调优更容易,而且还大大减少了训练时间。
Laplacian matrix
图𝐺的拉普拉斯矩阵被定义为𝐿𝐺=𝐷−𝐴。𝐿的一个有用的性质是它的二次形式度量了一个向量相对于图结构的“光滑性”。
设𝑆⊂𝑉是顶点的子集,而𝑆=𝑉\𝑆是它的补体。我们使用𝐸(𝑆,𝑆)来表示𝑆和𝑆之间的交叉边集,这也称为𝑆诱导的切边。在许多应用程序中的一个任务是将图划分为两个或多个不相交的部分,以便使交叉边的数量最小化。在研究这类图的划分问题时,研究图的拉普拉斯矩阵是有用的,因为应用于𝑆的指标向量上的拉普拉斯二次形式正好是切割大小。
设𝑥𝑆∈{0,1}𝑛为集合𝑆的指示向量,即第𝑖个条目为:
从(1)中可以得出
2. 理论
2.1 Sparsest Cut
模型是由最疏切割问题驱动的(例如,[4])。这个问题的目标是将图划分为两个不相交的部分,使切割尺寸较小;但我们也希望这两个不相交的部分在大小上得到平衡。对于标准的最小切割问题,当存在低度节点时,最小切割很可能由单个节点形成,这在典型的应用程序中不是很有用的切割。最稀疏切割问题中的平衡要求避免了这种琐碎的切割,并可以产生更有趣的解决方案。
对于节点𝑆的任何子集,其边展开被定义为
最稀疏割问题要求找到一个可能边展开最小的集合𝑆∗。我们定义了𝜙(𝐺)=min𝑆⊂𝑉|𝐸(𝑆,𝑆)|min(|𝑆|,|𝑆|)。在本文中,我们考虑上述定义的一个轻微变体,即找到一个具有最小𝜙‘(𝑆∗)的集合𝑆∗,其中
上述两个最稀疏切割公式等价于近似因子2,因为
2.2 A Parameterized Relaxation
另一种表示边缘展开的方法是
事实上,分子𝑥𝑆⊤𝐿𝐺𝑥𝑆=|𝐸(𝑆,𝑆)|由(3)。从(1)开始,分母正好是2𝑥𝑆⊤𝐿𝐾𝑥𝑆,其中𝐾是定义在与𝐺相同的顶点集上的完整图,而𝐿𝐾是对应的拉帕拉克矩阵。这是完整图上(𝑆,𝑆)上的切割尺寸(由(3)绘制)的两倍,正好是2|𝑆||𝑆|。因此,我们有了
这个代数公式仍然是棘手的,主要是由于积分约束𝑥∈{0,1}𝑛。因此,放松这些方法是很自然的,并且只需要每个𝑥𝑖∈[0,1]。更强大的松弛通常将每个𝑥𝑖提升到高维,并考虑优化问题
上述松弛的缺点是它没有利用节点特性,而后者通常包含重要的信息。在本文中,我们提出了以下松弛方法:
2.3 Approximation with Graph Convolutional Networks
问题(4)可以看作是两个参与者之间的对比博弈:分母想要最大化所有对之间的成对距离,而分子则试图使相邻的对接近
为了简化问题,我们用拉普拉斯平滑滤波器对分子参与者的行为进行建模,然后将分子从目标函数中去除
作者 隐式采用 laplacian 平滑的encoder来代替分子的作用(都是让两个节点靠近),这里是 随机梯度下降也可以有这样效果,,本文是采用encoder 低通滤波
设𝑔𝜃(𝐹)∈R𝑛×𝑑表示第𝑖行为𝑔𝜃(𝐹𝑖)的矩阵,Π𝐺𝑔𝜃(𝐹)∈R𝑛×𝑑为平滑后的矩阵,其中包含所有节点的嵌入。设𝑧𝑖表示𝑣𝑖的嵌入,𝑣𝑖为Π𝐺𝑔𝜃(𝐹)中的第𝑖行,𝑍=Π𝐺𝑔𝜃(𝐹)为输出嵌入矩阵。我们的损失将是这样的
应用该图卷积的效果类似于低通型滤波器,它将信号近似地投影到由低特征向量张成的空间上。
2.4 Negative Sampling and Spectral Sparsification
上述损失函数的一个缺点是它包含𝑛2项,因此即使只是一次忽略它们也太耗时。因此,我们只会在开始时随机抽取一小对N⊂𝑉×𝑉,称为负样本。
如果我们以概率𝑝独立地对每个可能的对进行抽样,那么[31]的谱稀疏化定理声称,如果采样边的数量为期望(或每个节点的Θ(log𝑛))为Θ(𝑛log𝑛),𝑥⊤𝐿𝐾𝑥≈𝑥⊤𝐿𝐻𝑥/𝑝将以高概率同时成立。通过这个结果,两个损失函数(5)和(6)近似等价。假设𝑍是𝐿‘的最优嵌入,那么其相对于𝐿的损失为
3.实施方案
两个部分:1.图卷积的encodr 2.多层线性网络来对特征进行mapping
提出了两个变分:
1.SCE
2. MOSCE Multi-order Sparsest Cut network Embedding
这两个模型实质上就是类似 SGC 和 SIGN。
损失函数
无监督损失: 分子encoder隐式表达
5.1 实验
值得注意的 有个对比方法:GCN无监督 采用了sage类似的链接预测损失
不同标签的方法,但是包含了无监督的方法 ???? 无监督方法在不同标签也会变???
损失函数就是为了让分母(负样本)距离大,&&时间
作者是一个无监督的表征学习框架,为了还做了 不同标签下的样本??? 很奇怪