多视图局部鉴别投影
(RSMLDP)是一种旨在从多个视图的数据中提取鉴别特征
和保持局部几何结构信息
的算法。
该方法特别设计用于处理高维数据
的噪声敏感性
和维数灾难
问题,通过随机子空间
技术降低这些问题的影响,并在降维后保持数据的局部结构,进而提升分类性能
。下面是RSMLDP方法的具体介绍,包括计算步骤和涉及的公式。
计算步骤和涉及的公式:
- 数据预处理:
- 假设有
M个视图
的数据,每个视图包含
n个样本
,样本维度分别为。
- 对每个视图(k)中的每个样本
,通过随机特征选择生成维度为(p)的
低维
样本,这个过程重复R次,生成R个子集。
- 构造近邻图:
- 在每个随机子空间上,为每个视图单独构建
类内近邻图
、类间近邻图
和全局近邻图
。这一步骤通过计算样本与类内、类间和全局中心点
的相似性权重完成,以减少噪声影响,并利用局部信息。
- 计算局部类内/类间加权散度:
- 设
和
分别为第(k)视图的
类内
和类间
近邻权重矩阵,定义局部类内加权散度
和
类间加权散度
为:
其中
和
分别是样本
的
类内和类间近邻集合
- (C)是
类别总数
是类别(c)的
所有样本集合
是
样本间相似性权重
- 计算总体局部加权散度:
- 定义
总体局部加权散度
为:
其中,包含了样本
的
所有近邻。
- 目标函数:
- RSMLDP的目标函数旨在最大化类间散度,最小化类内散度和总体局部散度`,可以形式化为:
其中,是平衡因子,控制各项散度的重要性。
- 优化与求解:
- 通过优化上述目标函数,学习
每个视图的投影矩阵
,使得投影后的数据
最大化类间可分性
,最小化类内可分性
,同时保持数据的局部结构。 - 实现上,可以使用
迭代优化算法
(如梯度下降、坐标下降等)来求解上述优化问题。
具体例子:
- 假设我们有一个简单的多视图图像数据集,每个图像有RGB三个颜色通道视图,即M=3。
- 每个视图包含100张不同类别的手写数字图片,共有10个类别,每个类别10张。应用RSMLDP方法时,首先对每个视图进行
随机子空间降维
,比如选取p=30维的特征。 - 然后,对
每个降维后的视图
,构建局部类内、类间和全局近邻图
,并计算相应的加权散度
。 - 通过优化目标函数,学习得到每个视图的
投影矩阵
,最终将数据投影到一个低维空间
,使得不同类别的图像在该空间中更容易区分,同时保持局部结构信息,提高分类性能。 - 在实验中,可能还会根据具体数据集(例如MNIST)调整参数如近邻数K、平衡因子
等,以获得最佳性能。
- 比如在MNIST数据库上,通过实验发现当近邻数K设置在43到46之间,平衡因子
设置为0.4时,RSMLDP方法能够获得较优的分类识别率。