论文阅读“Deep fusion clustering network”(AAAI2021)

论文标题

Deep fusion clustering network

论文作者、链接

作者:Tu, Wenxuan and Zhou, Sihang and Liu, Xinwang and Guo, Xifeng and Cai, Zhiping and Cheng, Jieren and others

链接:https://arxiv.org/abs/2012.09600

代码:GitHub - WxTu/DFCN: AAAI 2021-Deep Fusion Clustering Network


Introduction逻辑

深度聚类简介——对深度聚类的分类简介——早期深度聚类集中于挖掘数据原始特征空间中的信息——现在的深度聚类倾向于添加几何结构信息——对一些图聚类进行介绍——现有方法存在的问题——本文方法

论文动机&现有工作存在的问题

(1)缺少一种动态融合机制,能够有选择地整合和细化图结构和节点属性信息,用于共识特征表示学习

(2)未能从双方提取信息进行鲁棒目标分布(即“groundtruth”软标签)生成。

论文核心创新点

(1)一个基于相互依赖学习的结构与属性信息融合(SAIF)模块

(2)一种可靠的目标分布生成方法和一种三重自我监督策略


相关工作

图聚类over-smoothing限制了GCN的准确性,SDCN中两个子网络缺少信息交互

目标分布生成:即自监督学习中的软标签。现有方法只用autoencoder或者GCN,没有将它们合起来


论文方法

论文中所使用的标识

 对一个无向图\mathcal{G}=\{\mathcal{V}, \mathcal{E}\}有K个簇中心,\mathcal{V}=\left\{v_{1}, v_{2}, \ldots, v_{N}\right\}为顶点集,E为边集,N是样本个数。图谱由特征矩阵\mathbf{X} \in \mathbb{R}^{N \times d}以及原始邻接矩阵\mathbf{A}=\left(a_{i j}\right)_{N \times N} \in \mathbb{R}^{N \times N}表示。d是特征维度,并且如果\left(v_{i}, v_{j}\right) \in \mathcal{E},则a_{ij}=1,否则a_{ij}=0

对应的等级矩阵为\mathbf{D}=\operatorname{diag}\left(d_{1}, d_{2}, \ldots, d_{N}\right) \in \mathbb{R}^{N \times N},并且d_{i}=\sum_{v_{j} \in V} a_{i j},对于\textbf{D}矩阵的原始邻接矩阵通过\mathbf{D}^{-\frac{1}{2}}(\mathbf{A}+\mathbf{I}) \mathbf{D}^{-\frac{1}{2}}进一步正则化为\widetilde{\mathbf{A}} \in \mathbb{R}^{N \times N},其中\mathbf{I} \in \mathbb{R}^{N \times N}代表\mathcal{V}中的每个结点都链接着一个自环型结构。

基于融合的自编码

现有的自编码器往往根据自身的潜在特征对输入进行重构。我们首先整合GAE和AE学到的特征以获得共通的潜在表示。然后将这种嵌入作为输入,AE和GAE的解码器对两个子网络的输入进行重构。与其他现有的方法区别在于通过融合模块融合异构结构和特征信息,然后用共识潜在特征表示重构两个子网络的输入。

增强图自编码器

现有的图自编码器往往忽视基于结构的特征信息。本文为图编码器添加了邻接信息和结构信息,设计了improved graph autoencoder (IGAE)。

在IGAE中,编码器和解码器中的一层公式表示为:

 其中分别表示第l层的编码器和第h层的解码器。\sigma是非线性的激活函数,ReLU或者Tanh。 IGAE的总损失为:

 其中的两项为:

 其中,\widehat{\mathbf{Z}} \in \mathbb{R}^{N \times d}是重构的权值特征矩阵,\widehat{\mathbf{A}} \in \mathbb{R}^{N \times N}是重构的邻接矩阵。网络在训练过程中可以同时减小特征矩阵和邻接矩阵的重构误差。

结构信息与特征信息融合

 本文提出structure and attribute information fusion (SAIF)

跨模态动态融合机制:从局部和全局考虑样本之间的相关性,精炼AE和IGAE学习的信息

分四步:

(1)将AE的潜在嵌入向量\left(\mathbf{Z}_{A E} \in \mathbb{R}^{N \times d^{\prime}}\right)和GAE的潜在嵌入向量\left(\mathbf{Z}_{IGAE} \in \mathbb{R}^{N \times d^{\prime}}\right)线性融合

 其中d^\prime是潜在嵌入的维度,\alpha是超参,本文设为0.5。

(2)然后,用一个类似于图卷积的操作处理组合信息。在这个操作下,通过考虑数据的局部结构信息强化初始融合嵌入\mathbf{Z_I} \in \mathbb{R}^{N \times d^{\prime}}

 其中,\mathbf{Z}_{L} \in \mathbb{R}^{N \times d^\prime}表示局部信息增强的\mathbf{Z_I}

(3)引入样本间信息融合空间的非局部关系,先计算正则化的自相关矩阵\mathbf{S} \in \mathbb{R}^{N \times N}通过以下公式:

 将S视为系数,通过考虑样本间的全局相关性重组\mathbf{Z}_{L}通过\mathbf{Z}_{G}=\mathbf{S} \mathbf{Z}_{L}

(4)们采用跳跃式连接来鼓励信息在融合机制中传递:

 其中,\beta是尺度参数,初始化为0,在训练中学习该参数。

三路自监督策略

从AE和IGAE生成聚类嵌入\widetilde{\mathbf{Z}} \in \mathbb{R}^{N \times d^{\prime}}来指导聚类学习,生成目标分布包括以下两个步骤:

 第一条公式表示,在融合嵌入空间中,以学生t分布作为核函数计算,第i个样本(\tilde{z_i})和第j个预计算的簇中心u_j的相似性。

第二条公式中,v是学生t分布的自由度,q_{ij}表示将第i个结点分配给第j个簇中心的概率。软分布矩阵\mathbf{Q} \in \mathbb{R}^{N \times K}反映了所有样本的分布。为了提高聚类分布的自信度,第二条公式将会使得所有样本尽可能靠近簇中心。其中,0 \leq p_{i j} \leq 1是生成的目标分布\mathbf{P} \in \mathbb{R}^{N \times K}的一个样本,代表了第i个样本分配给第j个簇中心的概率。

将AE和IGAE的软分配分布记为:\textbf{Q}^\prime\textbf{Q}^{\prime\prime}

为了让网络作为一个整体训练,设计了一个三联聚类损失,通过下列的KL散度计算:

 在该公式中,AE、IGAE和融合特征的软分配分布之和,同时与目标分布对齐。

联合损失以及优化

全局的目标函数为:


伪代码


消融实验设计

IGAE的有效性

SAIF模块的分析

双源信息的影响

超参分析


一句话总结

在SDCN的基础上做了目标分布的融合


论文好句摘抄(个人向)

(1) They require only the latent representation to reconstruct the adjacency information and overlook that the structure-based attribute information can also be exploited for improving the generalization capability of the corresponding network.

  • 1
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值