论文笔记:多视图学习算法和应用研究

多视图学习算法和应用研究

一、摘要

本文的研究内容为如何选择视图、确定对应系数以及构建更加鲁棒的多视图学习和聚类算法,主要工作及创新点概括如下:

  1. 提出一种面向三维图形学的多视图分类模型。即:一种新的多视图三维图形特征抽取方法,称为卷积自动编码极限学习机 (CAE-ELM),它结合了卷积神经网络(CNN)、自动编码机(AutoEncoder)和极限学习机(Extreme Learning Machine,ELM)的特点,具有训练速度快、旋转不变性等多种特点,并能够同时抽取三维图形的两种不同视图,通过两种视图的结合,更好的分类。
  2. 提出一种面向多视图的全局 -局部核对齐算法。采用混合核对齐的方式,设计对应的交替优化算法,活得更好的分类效果。
  3. 提出一种基于重构核的多视图聚类框架。为解决样本中含有噪声视图的聚类问题并减小已有多视图聚类算法对视图质量的依赖性,提出该方法去自适应地提升每个视图的质量。首先基于各个视图的聚类结果自动地发现样本的异常视图,然后设计一种新的交替优化算法迭代地优化这些样本所对应的缺失视图值。最后,该框架将聚类结果与改进视图质量有机地结合起来,进一步提升了聚类的性能。
  4. 提出一种基于深度神经网络的大规模多核聚类近似算法。近似算法首先抽取大规模数据集的部分样本,形成一个子集,并对该子集使用 MKKM,得到子集对应的指示矩阵;后使用子集中的样本和对应的指示向量作为数据和标签训练一个深度神经网络,训练完成后固定该网络。

二、绪论

(1)多视图有监督学习算法 [27–34],大多数基于支持向量机[35],SVM-2K [36] 是一种典型的多视图有监督学习算法,它通过约束来自两个不同 SVM 的特征投影的相似性来结合两个视图。文献 [37] 提出了一种新的方法,称为多视图双胞支持向量机(MvTSVMs)。
(2)多视图无监督学习算法(MVC)[7,34,39-41]。常见的无监督学习方法包括 k-means 聚类 [42]、谱聚类 [43] 及核 k-means 聚类 [44]。关键要素是如何计算样本间的相似度,其依赖于数据特征。
(3)多视图度量学习 [86–90]。文献 [89] 结合人脸图片提取的 Gabor 特征、HOG 特征和局部纹理特征(LBP)等多种特征表示,设计新的多视图距离度量方式,将多视图度量学
习运用到人脸疼痛强度检测中。
(4)文献 [81] 提出一种新的多视图谱嵌入算法(multi-view spectral embedding,MSE),它通过将多视图特征编码从而实现更有意义的嵌入。
(5)文献 [85] 提出一种低秩的嵌入式多视图算法,考虑了视图的差异性。
(6)献 [41] 提出一种基于多样化诱导正则化项的多子空间学习聚类算法。该算法将文献 [91] 中的平滑表示引入到多子空间学习算法中。
(7)多核学习算法被广泛研究 [33, 94–100]。基于核的学习算法通过将样本映射到可再生希尔伯特空间中,考虑了样本之间非线性相似性。1.稀疏或非稀疏的多核学习算法 [30, 101–104, 104, 105];2. 单步、两步多核学习算法 [106–109];3.集成半径多核学习算法 [110–114];4. 多核聚类算法 [4, 46, 56, 115–118];5.如何提高多核学习算法的计算效率 [28, 94, 101, 119–124]。
(8)非稀疏多核学习算法研究提出将稀疏
算法中的 ℓ1约束换成 ℓp-范数约束 [30, 101, 102],通过这种约束方式可以充分利用基
核的互补信息,从而达到更好的性能。
(9)CCF 推荐 C类期刊 Neurocomputing 上 [152]。

三、研究方法

研究方法1

1.文献积累

(1)很多全自动提取 3D 特征的方法被提出,例如卷积深度信念网(CDBN) [155],自动编码机(Auto-Encoder, AE) [156], 深度玻尔兹曼机(DBM)[157], 极限学习机(ELM),卷积神经网络(CNN) [158], 以及多层卷积自动编码机(Stacked CAE) [159] 等等。
(2)大多数方法并不直接接收三维图形作为输入,而是将三维图形转为二维图像之后再抽取特征 [22, 159, 160],这类特征抽取方法导致三维几何信息的缺失,从而影响了性能。
(3)直接接收三维输入 [155, 161],例如使用三维图形的体素化表示作为输入。然而,由于增加了额外的维度,导致这些方法的训练时间和测试时间都特别长。

2.提出方法

提出了一种新的三维图形特征抽取方法,叫做卷积自动编码极限学习机 (CAE-ELM)。CAE-ELM 结合了卷积神经网络、自动编码机和极限学习机的特点。是一种典型的无监督学习算法,可以在没有任何指导的情况下提取特征,然而自动编码机的网络是全连接的,因此需要学习很多额外的参数。卷积神经网络限制了层与层之间的连接数目,只有局部连接关系,但其需要大量的卷积运算,计算量巨大。为了减小它的运算量,加入有效且高效的 ELM。因此,CAE-ELM 具备训练速度快、连接数量少等优良特性。

3.相关工作

(1)半自动。大量的特征提取算法被提出 [163, 165, 168, 169]。
(2)深度学习。CAE-ELM 能够同时抽取全局和局部的特征。
(3)极限学习机。极限学习机(ELM)是一种单隐层前向神经网络(SLFNs) [174–176],隐层节点是随机产生的,而隐层和输出层之间的权值矩阵则具有解析解,能够通过公式直接计算出来。ELM在训练阶段具有两个主要过程:特征映射阶段和输出权值求解阶段。

4.核心思想

卷积自动编码极限学习机。CAE-ELM 将卷积 ELM 和自动编码极限学习机集成到同一框架下,于如下两种考虑:第一,卷积网络的局部共享权值机制能够保持三维图形的旋转不变性;第二,通过使用自动编码机能够使模型变得更加高效。因此,CAE-ELM 能够在各种三维图形学应用中高效的提取三维特征。
多视图 CAE-ELM 结构
CAE-ELM 能够接受两种不同类型的三维视图作为输入,它同时抽取两种不同表示的特征,最后将两种不同类型的特征组合起来送入 ELM 分类器完成分类任务。
在这里插入图片描述

研究方法2—面向多视图的全局 -局部核对齐算法

1.文献积累

(1)文献 [189] 中提出核对齐准则。
(2)多核学习算法按照优化策略可以大体分为两类:单步算法 [101, 125, 185, 186] 和两(多步)算法 [106–108, 187, 188]。单步算法同时学习优化核的系数和分类器的结构参数,而两步算法则首先通过一定的准则学习最优核,之后通过标准核学习算法基于学习好的最优核训练模型。

2.提出方法

定义一种新的核对齐方式:全局 -局部混合核对齐。首先定义局部核对齐,即每个样本都只使用其 k 个邻居得到局部核,之后对各个局部核进行对齐。
在这里插入图片描述

研究方法3—基于部分重构视图的多视图聚类架构

1.文献积累

这 3 个 MKC 算法包括多核k-means 聚类算法 (MKKM) [115],多视图联合谱聚类算法 (CRSC) [56] 和矩阵导出正则化的多核 k-均值聚类 (MKKM-MR) [50]。

2.提出方法

该聚类框架首先基于各个基核的聚类结果发现异常值,然后设计一种新的交替优化算法迭代优化异常样本对应的基核。通过这种方式,将聚类结果与基核质量结合起来,进一步提升聚类的性能。
在这里插入图片描述
该算法是在基于已有的聚类结果重构异常点优化核矩阵K。其异常点的定义规则是:选取距离聚类中心点较远的样本点作为异常点。所提出的算法框架如图所示:
在这里插入图片描述
在这里插入图片描述
(1)对于异常点的检测
首先对每个基核做核 k 均值聚类 (KKM),并对每个核都产生初始的聚类标签,之后我们计算每个核空间中,各个样本离聚类中心的距离,并记录一部分离各个聚类中心较远的样本点集合为 Op, 假设这个比例值为 r。
在这里插入图片描述
(2)算法改进
A.基于重构核的 CRSC 算法(CSRC-IK)
目标函数:
在这里插入图片描述
算法流程:
在这里插入图片描述
B.基于重构核的 MKKM 算法 (MKKM-IK)
目标函数:
在这里插入图片描述
算法流程:
在这里插入图片描述改进算法分析:
IK 中,Q 表示 (I − HH),其中 H 是通过组合核 K 计算得到的。因此,Q 中集成了所有基核的聚类信息,使用 Q 去更新基核,实际是综合考虑所有核在异常位置的 kernel 值来更新某个基核在其异常位置的值。在 CRSC-IK 中,Q 中只包含了第p 个基核的指示矩阵 Hp,而不是组合核的指示矩阵 H,但是在其优化过程中,Hp在优化过程中实际会使用 H,也就是说,Hp在优化过程中会从全局指示矩阵 Hp中获取信息,因此 CRSC-IK 中的 Q 也集成了全部基核的信息。总之,本章提出的框架通过集成所有基核的信息区更新各个基核在其异常位置的 kernel值。值得指出的是,框架下的重构视图算法能够保证单调性和收敛性。

3.实验结果

(1)实验数据集
在这里插入图片描述
(2)实验结果
为了验证框架在核缺失情况下的聚类性能,我们首先对所有基核随机产生不
同比例的缺失。注意此处的缺失比例是有缺失视图的样本比例,而不是每个视图
中缺失的样本的比例。
人造数据集 Toydata 上的结果
在这里插入图片描述
MKC标准数据集上的结果

在这里插入图片描述
图像和视频数据集聚类结果

CCV 数据集CRSC-IK 的聚类精度为 31.68% 最佳

Flower17 数据集上的混淆矩阵,图中矩阵的横坐标表示真实类别标号,纵坐标表示预测标签标号,第 i 列表示真实标签为第 i 类的样本分别被预测为各个类别的样本比例,例如第 12 列表示,真实标签为 12 的所有样本被分为第 8 类的比例为 11.25%,被分为第 12 类的比例为 28.75%。由此可见,对角线元素比例越高,说明正确分类的比例越高。
从图可以看出,MKKM 会混淆第 8 和第 1 类、第 12 和第 13 类。具体而言,MKKM 在真实标签为第 8 和第 12 类时,预测的正确率仅为 13.75% 和8.75%,作为对比,MKKM-IK 则能够将这两类的预测正确率提升到 43.75% 和58.75%,因此 MKKM-IK 更具有区分性。

在这里插入图片描述在这里插入图片描述

研究方法4—基于深度神经网络的大规模多核聚类近似算法

1.算法框架

在这里插入图片描述

2.提出方法

该算法分为两个阶段。第一个阶段,随机选取的子集上训练深度神经网络用于拟合指示矩阵 H。为此,我们需要使用 MKKM 算法得到子集对应的指示矩阵 H,然后将其作为深度神经网络的目标输出。
在这里插入图片描述
网络的损失函数如下所示:
在这里插入图片描述

3.算法流程

在这里插入图片描述
在这里插入图片描述

四、参考文献

参考代码

  • 4
    点赞
  • 26
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值