多视图的理解及多视图聚类算法
前言
这里主要讲解的是多视图的相关理解及多视图聚类的算法,其中部分理解的文献来源于下面的文章:
- 文章:Multi-view Clustering: A Survey
- paper link: https://ieeexplore.ieee.org/document/8336846
- publisher: IEEE2018,Big Data Mining and Analytics
- date: May 31, 2018
什么是多视图
多视图的定义
在当前大数据时代,数据往往能够在多个视角下进行采集获取。多个视角下采集获取的数据形成了多视图/多视角数据(Multi-view Data)。
- 多视图数据来源有许多:
- 来源于不同形态的数据,如不同风格的字体、不同国家的语言
- 来源于不同数据站点的数据,如不同设备扫描得到的数据、不同种群的数据
- 来源于不同视角的数据,如一个人不同角度的成像数据
- 来源于不同特征描述的数据,如数据的边缘、傅里叶、纹理等特征构成的数据
- 来源于不同模态的数据,如视频可划分为音频、视觉、文本等不同模态构成的数据
- 来源于不同格式的数据,如不同的图像格式所构成的数据
- 来源于不同采样下的数据,如数据缺失程度不同所构成的数据
多视图的重要性
-
互补性
互补性原则是指多视图数据的每一个视图都可能包含其他视图所不具备的信息或知识,使用多个视图可以获得更加全面而准确的数据描述。
不同的视图通常包含不同的信息,但是也包含彼此互补的信息。不同视图之间的互补性可带来更多的特征信息,有利于信息的充分利用,使模型能更加准确、全面的描述原始数据。因此,有必要利用这些基于多个视图的相互补充的信息来描述这些数据对象,以便对内部信息进行深入挖掘,提高聚类质量。
-
一致性(共识性)
一致性原则旨在最大化多个视图之间的一致性,如多个视图应具有相同的类别结构。简单来说,就是不同视图中的同一数据点应该具有相同的簇分配信息,即不同视图均为同一对象的描述,在下游任务如分类任务上,不同视图的分类结果即标签应该也是一致的
相关理论:保证不同视图视图之间一致性最大化实际上就等同于最小化每个视图出错的概率
多视图的聚类方法的概览
多视图的聚类算法主要分为以下5种:
- 协调训练方法(Co-training)
- 多核学习方法(Multi-kernel)
- 多视图图形聚类方法(Multi-view graph)
- 多视图子空间聚类方法(Multi-view subspace)
- 多任务多视图聚类方法(Multi-task Multi-view)
算法1:协调训练方法与
-
方法
Co-training实际上就是利用先验知识或互相学习知识来使不同视图之间的一致性达到最大化。
如上图,标准协同训练算法的步骤为:
输入:标记数据集L&#