论文阅读“Attention-driven Graph Clustering Network”（MM2021）

不吃香菜的zbw

已于 2022-06-14 17:23:04 修改

阅读量786

点赞数

分类专栏：论文阅读文章标签：深度学习人工智能

于 2022-06-14 16:10:12 首次发布

本文链接：https://blog.csdn.net/qq_43497436/article/details/125272293

版权

论文阅读专栏收录该内容

39 篇文章 11 订阅

订阅专栏

论文标题

Attention-driven Graph Clustering Network

论文作者、链接

作者：Peng, Zhihao and Liu, Hui and Jia, Yuheng and Hou, Junhui

链接：Attention-driven Graph Clustering Network | Proceedings of the 29th ACM International Conference on Multimedia

代码：https://github.com/ZhihaoPENG-CityU/MM21---AGCN

Introduction逻辑（论文动机&现有工作存在的问题）

聚类——深度聚类，关键在于从潜在数据总学习错综复杂的模式——在深度聚类中添加结构化信息，深度图聚类——现存问题：往往将图特征和结点特征重要性等同，并且只考虑了最深层提取的特征忽略了多尺度的特征

论文核心创新点

逐层融合模块：将GCN和AE的同一层特征进行融合

逐尺度融合模块：把不同层的多尺度模块融合

论文方法

本文提出的 attention-driven graph clustering network (AGCN)主要分成两个部分：（1）逐层融合模块heterogeneity-wise fusion module (AGCN-H)（2）逐尺度融合模块scale-wise fusion module (AGCN-S)

逐层融合模块AGCN-H

GCN可以有效的捕捉图的拓扑信息，AE可以提取结点的特征信息，AGCN-H模块可以将GCN学到的特征和AE学到的特征进行融合，以学到更具有区别度的特征。具体来说，利用基于注意的机制和异构策略，进行注意系数学习和随后的加权特征融合。如图2（a）所示。

首先，编码器——解码器模块通过最小化重构误差来提取潜在特征，即：

其中， $\bold{X} \in \mathbb{R}^{n \times d}$ 表示原始数据， $\hat{\bold{X}} \in \mathbb{R}^{n \times d}$ 表示重构数据。 $\bold{H}_i \in \mathbb{R}^{n \times d_i},\hat{\bold{H}}_i \in \mathbb{R}^{n \times \hat{d_i}}$ 分别代表编码器和解码器的第 $i$ 层的输出。 $\phi (\cdot)$ 表示激活函数，比如Tanh,ReLU。 $\bold{H}_i^e,\bold{b}_i^e$ 分别代表编码器第 $i$ 层的权重和偏置， $\bold{W}_i^d,\bold{b}_i^d$ 分别代表解码器的第 $i$ 层的权重和偏置。 $\bold{H}_0$ 代表原始数据 $\bold{X}$ ， $\hat{\bold{H}}_l$ 代表重构的数据 $\hat{\bold{X}}$ 。此外，GCN第 $i$ 层学到的特征记作 $\bold{Z}_i \in \mathbb{R}^{n \times d_i}$ ， $\bold{Z}_0$ 代表原始数据 $\bold{X}$ 。

为了学习相应的注意系数，将 $\bold{Z}_i,\bold{H}_i$ 拼接起来，即 $[\bold{Z}_i||\bold{H}_i] \in \mathbb{R}^{2d_i \times 2}$ 。然后一个全连接层，参数矩阵为 $\bold{W}^a_i \in \mathbb{R}^{2d_i \times 2}$ ，用来捕捉拼接起来的特征。然后，用LeakyReLU激活函数，应用于 $[\bold{Z}_i||\bold{H}_i]$ 和 $\bold{W}^a_i$ 之间的多层感知机上。LeakyReLU的输出经过一个归一化后，再经过一个softmax函数和一个 $l_2$ 归一化，公式化如下：

其中 $\bold{M}_i=[m_{i,1}||m_{i,2}] \in \mathbb{R}^{n \times 2}$ 是注意力的系数矩阵，矩阵内所有的值都大于0。 $\bold{m}_{i,1},\bold{m}_{i,2}$ 分别是衡量 $\bold{Z}_i,\bold{H}_i$ 的重要性的权重向量。对第 $i$ 层的GCN的特征 $\bold{Z}_i$ 和AE的特征 $\bold{H}_i$ 进行自适应融合，即：

其中 $\bold{1}_i \in \mathbb{R}^{1\times d_i}$ 代表全是1的向量， $\odot$ 代表哈达玛积。将得到的向量 $\bold{Z}^\prime_i \in \mathbb{R}^{n\times d_i}$ 做为第 $i+1$ 层的GCN输入去学习 $\bold{Z}_{i+1}$ 的特征表达，公式如下：

其中，正交领接矩阵 $A$ 通过 $\mathrm{D}^{-\frac{1}{2}}(A+I)\mathrm{D}^{-\frac{1}{2}}$ 进行归一化，有 $I \in \mathbb{R}^{n\times n}$ 是单位矩阵， $D$ 是相关度矩阵， $\bold{W}_i$ 代表网络的权重。

总的来说，通过AGCN-H模块实现GCN和AE特征的动态特征融合。

逐尺度融合模块AGCN-S

现有的深度聚类算法往往忽略不同层级的多尺度信息，于是本文设计了逐尺度融合模块AGCN-S。因为不同层级的特征维度是不同的，所以先通过concat函数对多尺度的特征做一个聚合：

其中， $\bold{Z}_i \in \mathbb{R}^{n \times d_i}$ 有 $d_i$ 是第 $i$ 层的维度， $l$ 代表编码器的的层数。特别地， $\bold{Z}_{l+1}=\bold{H}_l \in \mathbb{R}^{n \times d_l}$ 。

不同层级对输入数据的描述信息是不同的，并且在最后的聚类任务中扮演着不同的角色，直接将不同的层级的权重相等是不行的。由此，通过注意力机制，将AGCN-S模块与多尺度动态结合。如图2（b）所示。

首先，用一个全连接层，参数矩阵为 $\mathbf{W}^{s} \in \mathbb{R}^{\left(d_{1}+\cdots+d_{l}+d_{l}\right) \times(l+1)}$ ，用来捕捉不同层的特征中的关系，然后在 $\left[\mathbf{Z}_{1}\|\cdots\| \mathbf{Z}_{i}\|\cdots\| \mathbf{Z}_{l} \| \mathbf{Z}_{l+1}\right]$ 和 $\bold{W}^s$ 之间使用LeakyReLU函数。随后，使用 $"softmax-l_2"$ 对每一行的元素做正则化，将它们归一化，以缩放到输出权值大小相等，使注意系数易于比较。注意力系数矩阵如下：

其中， $\mathbf{U}=\left[\mathbf{u}_{1}\|\cdots\| \mathbf{u}_{i}\|\cdots\| \mathbf{u}_{l} \| \mathbf{u}_{l+1}\right] \in \mathbb{R}^{n \times(l+1)}$ 所有的值都大于0， $\bold{u}_i$ 是对 $\bold{Z}_i$ 的平行的注意力系数矩阵。为了充分挖掘嵌入在多尺度特征中的信息，我们在公式5中引入了基于注意力的尺度策略，即，用学习到的注意系数对多尺度特征进行加权，于是公式5转变成：

融合特征 $\bold{Z}^\prime$ 用来作为最后一层预测层的输入，学习特征表示 $\bold{Z} \in \mathbb{R}^{n \times k}$ ， $k$ 是簇的个数。使用一个拉普拉斯平滑操作（Laplacian smoothing operator）和一个softmax函数用来得到预测的概率分布，公式如下：

其中 $\bold{W}$ 是可学习的参数。当网络是训练好的情况下，可以通过 $\bold{Z}$ 直接得到预测的簇的标签:

其中 $y_i$ 是数据 $x_i$ 对应的预测标签。

训练流程

步骤1

为了将该方法学习到的特征应用到聚类任务中，使用学生t-分布作为核，去衡量嵌入点和中心点的相似性。然后，模型交替精炼聚类结果，通过一个从当前的聚类软分配中得到的一个辅助目标分布，公式如下：

其中， $\mathbf{H}=\mathbf{H}_{l}=\left[\mathbf{h}_{1}, \cdots, \mathbf{h}_{n}\right]^{\top}$ ， $q_{i,j}$ 表示 $\bold{h}_i$ 与其对应的簇中心向量 $\mu_j$ 之间的相似性， $\alpha$ 设为1。直接对 $\bold{Z,H}$ 最小化KL散度会导致琐碎解，于是引入一个辅助目标分布 $\bold{P}$ 来避免崩溃问题：

其中， $0 \leq p_{i, j} \leq 1$ 是 $\bold{P}$ 的元素

步骤2

在辅助目标分布 $\bold{P}$ 的帮助下，对特征 $\bold{Z}$ 和 $\bold{H}$ 进行KL散度最小化，公式如下：

其中有 $\lambda_1>0,\lambda _2>0$ ，是权衡参数。通过最小化公式12，分布 $\bold{Z,H}$ 可以很好的对齐。

于是全局损失函数为：

其中 $\mathcal{L}_R$ 是AE的重构误差， $\mathcal{L}_{KL}$ 是合成特征 $\bold{Z}$ 和AE的特征 $\bold{H}$ 的分布损失

本文的算法流程图

消融实验设计

对于AGCN-H和AGCN-S的消融

对不同尺度的特征消融

不同的k邻居的消融

一句话总结

本文对AE和GCN的结合方法，以及注意力机制的引入，值得参考

论文好句摘抄（个人向）

（1）Guo et al. [6] introduced a reconstruction loss to improve DEC for learning a better representation

（2）Although these works have achieved remarkable improvements, they simply focus on the node attribute feature and ignore the topological graph information embedded in the data.

（3）propose,develop,combine,design

不吃香菜的zbw

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
4
评论
论文阅读“Attention-driven Graph Clustering Network”（MM2021）

Attention-driven Graph Clustering Network论文作者、链接作者：Peng, Zhihao and Liu, Hui and Jia, Yuheng and Hou, Junhui链接：Attention-driven Graph Clustering Network | Proceedings of the 29th ACM International Conference on Multimedia代码：聚类——深度聚类，关键在于从潜在数据总学习错综复杂的模式
复制链接

扫一扫