本文作者:吴建龙、谢星宇、聂礼强、林宙辰、査红彬
本文Unified Graph and Low-rank Tensor Learning for Multi-view Clustering近期被计算机视觉顶级会议AAAI Conference on Artificial Intelligence (AAAI 2020) 接收。
01
引言
聚类是机器学习中的一项重要的研究课题。尤其是随着互联网的发展,我们每天都可以收集大量的未标注的数据,而人工标注的话将耗费大量的财力物力。为了充分利用这些未标注的数据,无监督聚类近期受到研究者的广泛关注,其通过探究样本间的特征相关性,基于一些相似性准则将数据分为不同的类别。对于单视角聚类而言,谱聚类、稀疏子空间聚类(SSC)以及低秩表示学习(LRR)等方法实现了很好的结果。在实际中,我们可以获取不同模态或者不同特征空间的数据表示,例如同一个物体可以用文本、图像以及视频进行描述,同时对于每种模态,我们也可以提出多种不同的特征进行表示。为了充分利用不同视角下的信息来提高聚类性能,多视角学习受到了较多的关注,许多多视角聚类方法也应运而生。鉴于稀疏子空间聚类和低秩表示方法受到了广泛的欢迎,许多基于自表示的多视角子空间聚类方法被相继提出。这些方法达到了非常好的性能,但其主要侧重于子空间学习并且具有很高的计算复杂度。另一个重要的问题是这些方法大多针对成对的矩阵探究视角间的相关性,而从张量层面探究多视角间高阶相关性则更自然和有效。邻接矩阵的构建是聚类算法中的关键一步。基于子空间学习的方法均基于自表示的方式构建邻接矩阵,其具有较高的计算复杂度。而基于谱聚类的算法中邻接矩阵的构建和聚类的优化是分离的,导致学到的聚类结果是次优的。为了解决此问题,我们提出了一种联合图学习和低秩张量表示的算法。具体地,我们首先学习视角相关的投影矩阵将原始空间中的多视角特征投影至低维空间。其次我们基于投影后空间中样本间的距离学习对应的相似度,构建视角相关的邻接矩阵。然后将不同视角的邻接矩阵组合到一起构成三阶张量,基于低秩张量逼近的方式学习最优的表示。最后我们将以上目标组合到一起,联合学习最优的投影矩阵、邻接矩阵和低秩张量。算法的示意图如图1所示。02
联合图和低秩张量学习
(1)张量核范数定义对于低秩张量分解,我们不仅要定义相关的秩,同时还要对张量的秩找到一个紧的凸松弛作为核范数。基于张量的奇异值分解所定义的张量核范数被证明是张量多秩(multi-rank)的范数的最紧的凸松弛[1],故而我们采用了此分解定义张量的秩。我们首先介绍一些张量相关的表示和定义。
对于一个三阶张量, 我们记
为张量的第i个前切面,
为沿第三个维度对此张量作快速傅里叶变换,
为其块矢量化。其块循环矩阵 的定义为:
同时,我们介绍如下定义。
定义1(张量乘积t-product). 记和
分别为大小为
和
的两个张量,则
和
的张量乘积(t-product)定义为:
定义2(f-对角张量). 如果一个张量的每一个前切面均为对角矩阵,那么这个张量被称为 f-对角(f-diagonal)张量。
定义3(单位张量). 对于单位张量(identity tensor),其第一个前切面为大小为n×n的单位矩阵,其它所有的前切面的元素值均为零。
定义4(正交张量). 如果一个张量满足如下条件,那么它是一个正交张量(orthogonal tensor):
定义5(张量奇异值分解). 对于张量,其奇异值分解(t-SVD) 如下:
其中和
为正交张量,
为f-对角张量。
定义6(基于张量奇异值分解的张量核范数). 对于张量,其基于张量奇异值分解的张量核范数定义为
的所有前切面矩阵的奇异值之和:
其中通过对
的前切面矩阵作奇异值分解
计算得到。
(2)模型构建
记


其中γ为平衡常数,为一个列向量,其第i个元素为
,
和
分别为元素全为1和0的列向量。二次项约束用于避免平凡解。一般而言,如果两个样本间的距离很小,那么其对应的相似度
的值将对应很大。

其中 I 为单位矩阵,为视角相关的投影矩阵,M为降维后特征的维度。类似于典型相关分析,我们同样采用了正交子空间约束来学习最优的视角相关的投影矩阵。




其中α为平衡常数来控制噪声项的影响,张量的 范数用来惩罚噪声项。



(3)模型优化
针对以上公式中的问题,我们提出了一种高效的算法通过交替求解的方式进行优化。虽然以上优化问题对于变量

优化子问题:固定张量
和投影矩阵W,我们通过优化如下子问题来更新张量
:
以上问题的最优解可通过如下张量阈值收缩算子计算得到:
其中,
表示张量的奇异值分解,
并且
为一个大小为
的f对角张量,其傅里叶域的对角元素为
。
优化子问题:固定张量 和投影矩阵W,我们先对没有对称约束的问题进行求解。优化
的拉格朗日函数可以公式化为:








以上问题等价于优化如下V个子问题:
其中为第v个视角对应的拉普拉斯(Laplacian)矩阵,
为对角元素为
的对角矩阵。记
, 则以上问题可以转化为:
以上问题可以通过特征值分解进行求解。值得注意的是,在我们计算得到最优的Y^v之后,在后续的优化中我们可以直接利用投影特征代替
,故而我们不再需要直接计算投影矩阵
的具体形式。












03
实验验证
我们对比了不同方法在六个数据集上的性能,所有的结果均为取十次平均值后的结果,我们采用了六种常用的聚类结果评价指标,包括归一化的互信息(NMI)、聚类准确率(ACC)和调整兰德指数(ARI)等。为了更好地与其他方法对比,我们将所有方法分为四个子类,包括单视角聚类方法、基于谱聚类的多视角聚类方法、基于子空间学习的多视角聚类方法和基于张量的多视角聚类方法。在每个数据集上我们提取了三种不同的特征作为三个不同的视角。以两个类别个数较多的MITIndoor-67和Caltech-101数据集为例,其分别包含67和101个类,对应5360和8677张图片,我们在表1中展示了具体的结果对比。可以看出我们的方法展现了非常好的聚类结果。表1:在两个图像数据集上的聚类性能对比。最好的结果用黑体显示。
表2:在 COIL-20 数据集上不同算法的计算复杂度和运行时间对比。K、V和N分别为迭代次数、视角个数和样本个数。M为投影空间中特征的维度。
04
总结
针对图像聚类任务,本文提出了一种联合图和低秩张量学习的算法。相似度矩阵的构建和多视角邻接矩阵的优化是多视角聚类中两个关键的步骤,如果两者分离则学习得到的表示将是次优的,因此联合学习是非常有必要的。针对此问题,本章提出了联合图学习和低秩张量表示的方法。将多视角特征投影至低维空间,图学习的方法基于样本间的距离学习对应的相似度,构建视角相关的邻接矩阵。基于不同视角的邻接矩阵构成的三阶张量,我们用低秩张量分解的方式学习最优的表示。以上目标组合到一起,联合优化学习最优的投影矩阵、邻接矩阵和低秩张量。在相关数据集上的实验结果表明,本章中联合优化的方式可以进一步提升多视角聚类的结果,进而验证了算法的有效性。
相关论文:
[1] Zemin Zhang, Ely Gregory, Aeron Shuchin et al. Novel methods for multilinear data completion and de-noising based on tensor-SVD. In CVPR, 2014
[2] Yuan Xie, Dacheng Tao, Wenshang Zhang et al. On Unifying Multi-view Self-Representations for Clustering by Tensor Multi-rank Minimization. International Journal of Computer Vision, 2018.
[3] Jianlong Wu, Zhouchen Lin, Hongbin Zha. Essential tensor learning for multi-view spectral clustering. IEEE Transactions on Image Processing, 2019.