论文阅读“Attention-driven Graph Clustering Network”(MM2021)

论文标题

Attention-driven Graph Clustering Network

论文作者、链接

作者:Peng, Zhihao and Liu, Hui and Jia, Yuheng and Hou, Junhui

链接:Attention-driven Graph Clustering Network | Proceedings of the 29th ACM International Conference on Multimedia

代码:https://github.com/ZhihaoPENG-CityU/MM21---AGCN


Introduction逻辑(论文动机&现有工作存在的问题)

聚类——深度聚类,关键在于从潜在数据总学习错综复杂的模式——在深度聚类中添加结构化信息,深度图聚类——现存问题:往往将图特征和结点特征重要性等同,并且只考虑了最深层提取的特征忽略了多尺度的特征

论文核心创新点

逐层融合模块:将GCN和AE的同一层特征进行融合

逐尺度融合模块:把不同层的多尺度模块融合


相关工作

深度聚类

深度图聚类


论文方法

本文提出的 attention-driven graph clustering network (AGCN)主要分成两个部分:(1)逐层融合模块heterogeneity-wise fusion module (AGCN-H)(2)逐尺度融合模块scale-wise fusion module (AGCN-S)

逐层融合模块AGCN-H

GCN可以有效的捕捉图的拓扑信息,AE可以提取结点的特征信息,AGCN-H模块可以将GCN学到的特征和AE学到的特征进行融合,以学到更具有区别度的特征。具体来说,利用基于注意的机制和异构策略,进行注意系数学习和随后的加权特征融合。如图2(a)所示。

首先,编码器——解码器模块通过最小化重构误差来提取潜在特征,即:

 其中,\bold{X} \in \mathbb{R}^{n \times d}表示原始数据,\hat{\bold{X}} \in \mathbb{R}^{n \times d}表示重构数据。\bold{H}_i \in \mathbb{R}^{n \times d_i},\hat{\bold{H}}_i \in \mathbb{R}^{n \times \hat{d_i}}分别代表编码器和解码器的第i层的输出。\phi (\cdot)表示激活函数,比如Tanh,ReLU。\bold{H}_i^e,\bold{b}_i^e分别代表编码器第i层的权重和偏置,\bold{W}_i^d,\bold{b}_i^d分别代表解码器的第i层的权重和偏置。\bold{H}_0代表原始数据\bold{X}\hat{\bold{H}}_l代表重构的数据\hat{\bold{X}}。此外,GCN第i层学到的特征记作\bold{Z}_i \in \mathbb{R}^{n \times d_i}\bold{Z}_0代表原始数据\bold{X}

为了学习相应的注意系数,将\bold{Z}_i,\bold{H}_i拼接起来,即[\bold{Z}_i||\bold{H}_i] \in \mathbb{R}^{2d_i \times 2}。然后一个全连接层,参数矩阵为\bold{W}^a_i \in \mathbb{R}^{2d_i \times 2},用来捕捉拼接起来的特征。然后,用LeakyReLU激活函数,应用于[\bold{Z}_i||\bold{H}_i]\bold{W}^a_i之间的多层感知机上。LeakyReLU的输出经过一个归一化后,再经过一个softmax函数和一个l_2归一化,公式化如下:

 其中\bold{M}_i=[m_{i,1}||m_{i,2}] \in \mathbb{R}^{n \times 2}是注意力的系数矩阵,矩阵内所有的值都大于0。\bold{m}_{i,1},\bold{m}_{i,2}分别是衡量\bold{Z}_i,\bold{H}_i的重要性的权重向量。对第i层的GCN的特征\bold{Z}_i和AE的特征\bold{H}_i进行自适应融合,即:

 其中\bold{1}_i \in \mathbb{R}^{1\times d_i}代表全是1的向量,\odot代表哈达玛积。将得到的向量\bold{Z}^\prime_i \in \mathbb{R}^{n\times d_i}做为第i+1层的GCN输入去学习\bold{Z}_{i+1}的特征表达,公式如下:

 其中,正交领接矩阵A通过\mathrm{D}^{-\frac{1}{2}}(A+I)\mathrm{D}^{-\frac{1}{2}}进行归一化,有I \in \mathbb{R}^{n\times n}是单位矩阵,D是相关度矩阵,\bold{W}_i代表网络的权重。

总的来说,通过AGCN-H模块实现GCN和AE特征的动态特征融合。

逐尺度融合模块AGCN-S

现有的深度聚类算法往往忽略不同层级的多尺度信息,于是本文设计了逐尺度融合模块AGCN-S。因为不同层级的特征维度是不同的,所以先通过concat函数对多尺度的特征做一个聚合:

 其中,\bold{Z}_i \in \mathbb{R}^{n \times d_i}d_i是第i层的维度,l代表编码器的的层数。特别地,\bold{Z}_{l+1}=\bold{H}_l \in \mathbb{R}^{n \times d_l}

不同层级对输入数据的描述信息是不同的,并且在最后的聚类任务中扮演着不同的角色,直接将不同的层级的权重相等是不行的。由此,通过注意力机制,将AGCN-S模块与多尺度动态结合。如图2(b)所示。

首先,用一个全连接层,参数矩阵为\mathbf{W}^{s} \in \mathbb{R}^{\left(d_{1}+\cdots+d_{l}+d_{l}\right) \times(l+1)},用来捕捉不同层的特征中的关系,然后在\left[\mathbf{Z}_{1}\|\cdots\| \mathbf{Z}_{i}\|\cdots\| \mathbf{Z}_{l} \| \mathbf{Z}_{l+1}\right]\bold{W}^s之间使用LeakyReLU函数。随后,使用"softmax-l_2"对每一行的元素做正则化,将它们归一化,以缩放到输出权值大小相等,使注意系数易于比较。注意力系数矩阵如下:

 其中,\mathbf{U}=\left[\mathbf{u}_{1}\|\cdots\| \mathbf{u}_{i}\|\cdots\| \mathbf{u}_{l} \| \mathbf{u}_{l+1}\right] \in \mathbb{R}^{n \times(l+1)}所有的值都大于0,\bold{u}_i是对\bold{Z}_i的平行的注意力系数矩阵。为了充分挖掘嵌入在多尺度特征中的信息,我们在公式5中引入了基于注意力的尺度策略,即,用学习到的注意系数对多尺度特征进行加权,于是公式5转变成:

 融合特征\bold{Z}^\prime用来作为最后一层预测层的输入,学习特征表示\bold{Z} \in \mathbb{R}^{n \times k}k是簇的个数。使用一个拉普拉斯平滑操作(Laplacian smoothing operator)和一个softmax函数用来得到预测的概率分布,公式如下:

 其中\bold{W}是可学习的参数。当网络是训练好的情况下,可以通过\bold{Z}直接得到预测的簇的标签:

 其中y_i是数据x_i对应的预测标签。

训练流程

步骤1

为了将该方法学习到的特征应用到聚类任务中,使用学生t-分布作为核,去衡量嵌入点和中心点的相似性。然后,模型交替精炼聚类结果,通过一个从当前的聚类软分配中得到的一个辅助目标分布,公式如下:

 其中,\mathbf{H}=\mathbf{H}_{l}=\left[\mathbf{h}_{1}, \cdots, \mathbf{h}_{n}\right]^{\top}q_{i,j}表示\bold{h}_i与其对应的簇中心向量\mu_j之间的相似性,\alpha设为1。直接对\bold{Z,H}最小化KL散度会导致琐碎解,于是引入一个辅助目标分布\bold{P}来避免崩溃问题:

 其中,0 \leq p_{i, j} \leq 1\bold{P}的元素

步骤2

在辅助目标分布\bold{P}的帮助下,对特征\bold{Z}\bold{H}进行KL散度最小化,公式如下:

 其中有\lambda_1>0,\lambda _2>0,是权衡参数。通过最小化公式12,分布\bold{Z,H}可以很好的对齐。

于是全局损失函数为:

 其中\mathcal{L}_R是AE的重构误差,\mathcal{L}_{KL}是合成特征\bold{Z}和AE的特征\bold{H}的分布损失

 本文的算法流程图

 


消融实验设计

对于AGCN-H和AGCN-S的消融

对不同尺度的特征消融

不同的k邻居的消融


一句话总结

本文对AE和GCN的结合方法,以及注意力机制的引入,值得参考


论文好句摘抄(个人向)

(1)Guo et al. [6] introduced a reconstruction loss to improve DEC for learning a better representation

(2)Although these works have achieved remarkable improvements, they simply focus on the node attribute feature and ignore the topological graph information embedded in the data.

(3)propose,develop,combine,design

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 4
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值