多视角子空间学习系列之 MCCA (Multi-view CCA) 多视角CCA Horst算法

最新推荐文章于 2022-11-26 22:32:58 发布

BigYouYou

最新推荐文章于 2022-11-26 22:32:58 发布

阅读量4.5k

点赞数 2

分类专栏：降维与多视角学习

本文链接：https://blog.csdn.net/qq_30565883/article/details/104412105

版权

降维与多视角学习专栏收录该内容

10 篇文章 24 订阅

订阅专栏

优化目标

前面已经讲了典型相关分析CCA，并且提到，CCA是一种双视角的方法，只能处理视角数为2的情况。为了将CCA应用于更多视角，一些研究人员提出了MCCA(Multi-view CCA)，即多视角CCA，将CCA直观地扩展到多视角版本。给定 $m$ 个视角 ${X_1,X_2,\cdots,X_m}$ ，其中第 $i$ 个视角 $X_i\in \mathbb{R}^{D_i\times n}$ ， $D_i$ 为其维度， $n$ 为样本数量，各视角样本数量相同。MCCA希望找到 ${W_1,W_2,\cdots,W_m}$ 将各视角投影到公共子空间，其中 $W_i\in \mathbb{R}^{D_i\times d}$ ， $d$ 为子空间维度，使得子空间中任意两个视角之间的相关系数之和：
$\max_{W_1,\cdots,W_m} \sum_{i,j}^m W_i^TX_iX_j^TW_j \\ s.t.\ W_i^TX_iX_i^T W_i=I$

本文仍然既是总结又是读论文笔记。

$d = 1$ 的情况

$d > 1$ 的情况有点复杂，先看 $d = 1$ 的情况如何解。首先 $d = 1$ 时，为了方便，我们用 ${w_1,\cdots,w_m}$ 代替 ${W_1,\cdots,W_m}$ ，上式写为：
$\max_{w_1,\cdots,w_m} \sum_{i,j}^m w_i^TX_iX_j^Tw_j\tag{1} \\ s.t.\ w_i^TX_iX_i^T w_i=1$

令 $C^{(i,i)}=X_iX_i^T$ ，对 $C^{(i,i)}$ 做Cholesky分解得 $C^{(i,i)}=D_i^TD_i$ ，其实 $D_i=X_i^T$ ，然后令 $X_i^Tw_i=x_i$ ，则 $w_i=D_i^{-1}x_i$ . 令：
$A_{ij}=D_i^{-T}C^{(i,j)}D_j^{-1}$

我就寻思这 $A_{ij}$ 其实是个单位矩阵。原文这么写有他的道理。往后看吧。然后公式 $(1)$ 就可以写为：
$\max_{x_1,\cdots,x_m}\sum_{i,j}^m x_i^TA_{ij} x_j \\ s.t.\ x_i^Tx_i=1$

进一步写为：
$max_{x} x^TAx \\ s.t.\ x_i^Tx_i=1$

这里的 $x$ 是由 $x_1,\cdots,x_m$ 这 $m$ 个列向量拼成的列向量。但是算的时候又按照矩阵分块运算来来算的。我们来套一下Lagrangian乘子法：
$L(x,\lambda)=\sum_{i,j}^m x_i^TA_{ij}x_j+\sum_i^m\lambda_i(1-x_i^Tx_i)$

对 $x_i$ 求导：
$\frac{\partial}{\partial x_i}L(x,\lambda)=\sum_{j}^m A_{ij}x_j-2\lambda_ix_i=0 \\ \sum_{j}^m A_{ij}x_j=2\lambda_ix_i$

因此构成一个大的矩阵块的形式：
$\left[ \begin{array}{ccc} A_{11} & \cdots & A_{1m} \\ \vdots & \ddots & \vdots \\ A_{m1} & \cdots & A_{mm} \\ \end{array} \right] \left[ \begin{array}{c} x_{1} \\ \vdots \\ x_{m} \\ \end{array} \right]= \left[ \begin{array}{c} \lambda_1x_1 \\ \vdots \\ \lambda_mx_m \\ \end{array} \right]$

这里把所有 $2\lambda_i$ 都写成 $\lambda_i$ 的形式了，都是常数参数而已。注意本文对 $A$ 矩阵的定义与原文不同。

然后该问题就变成了一个多元的广义特征值与特征向量问题。文章里面对于这种 $A$ 为对称、正定的generic matrix（特征值都不相同的矩阵），使用了一种普遍的算法Horst算法：
在这里插入图片描述
步骤上是容易理解的，这是一种迭代算法， $x$ 需要有一个人为设置的初值， $m a x i t e r$ 是人为设置的最大迭代次数。Horst算法的正确性和思路都有由来，但是我现在不想再细究了，论文里说这个算法能保证收敛到一种局部最优解。

形式转换

论文在这里做了一些形式转换，加了一些正则化考虑。公式 $(1)$ 中，如果特征维度 $D_i$ 小于样本数 $n$ ， $X_iX_i^T$ 有可能是奇异的（不可逆的），而且有可能造成过拟合。因此文章将公式 $(1)$ 改为如下形式：
$\max_{w_1,\cdots,w_m} \sum_{i,j}^m w_i^TX_iX_j^Tw_j \\ s.t.\ w_i^T (\frac{1-\kappa}{D_i-1}X_iX_i^T+\kappa I) w_i=1$

其中 $\kappa \in [0,1]$ ，然后令 $w_i=X_iy_i,K_i=X_i^TX_i$ ，则 $y_i=X_i^{-1}w_i$ ，然后上式等价于：
$\max_y \sum_{i,j} y_i^TK_iK_j^Ty_j \\ s.t.\ y_i^T (\frac{1-\kappa}{D_i-1}K_iK_i^T+\kappa K_i) y_i=1$

推导上注意，矩阵转置的逆等于其逆的转置。文章认为这么做的好处是便于引入使用核函数。

进一步，文章认为 $K_i$ 也是Typically病态的，甚至数据中心化后经常是奇异矩阵，并且处于限制方差和系数的原因，令：
$\widetilde{K_i}=(\sqrt{\frac{1-\kappa}{D_i-1}}K_i+\frac{\kappa}{2}\sqrt{\frac{D_i-1}{1-\kappa}}I)$

因此：
$\frac{1-\kappa}{D_i-1}K_iK_i^T+\kappa K_i \approx \widetilde{K_i}\widetilde{K_i}^T$

因此最终把优化目标的形式变为：
$\max_y \sum_{i,j} y_i^TK_iK_j^Ty_j \\ s.t.\ y_i^T \widetilde{K_i} \widetilde{K_i}^T y_i=1$

$d > 1$ 的情况

接上文。 $d > 1$ 时，优化目标为：
$\max_y \sum_{i,j} y_i^TK_iK_j^Ty_j \\ s.t.\ y_i^T \widetilde{K_i} \widetilde{K_i}^T y_i=1 \\ Y_i^T \widetilde{K_i} \widetilde{K_i}^T y_i=0$

这啥意思呢， $y_i$ 表示的是一个维度，因为 $d > 1$ ，子空间中各个维度应该是互不相关的，这里 $Y_i$ 表示的除了 $y_i$ 之外的其他维度。

为了应用Horst算法，论文先做如下转换：
$Z_i=\widetilde{K_i} Y_i,z_i=\widetilde{K_i} y_i$

然后定义算子：
$P_i=I-\widetilde{K_i} Y_iY_i^T\widetilde{K_i} =I-Z_iZ_i^T$

然后优化目标可以写为：
$\max_z \sum_{i,j} z_i^T \widetilde{K_i}^{-T} K_iK_j^T \widetilde{K_j}^{-1} z_j \\ s.t.\ z_i^T z_i=1 \\ Z_i^Tz_i=0$

然后可以进一步写为：
$\max_z \sum_{i,j} z_i^T P_i^T \widetilde{K_i}^{-T} K_iK_j^T \widetilde{K_j}^{-1} P_jz_j\\ s.t.\ z_i^T z_i=1=1$

这是因为 $P_iz_i=z_i-Z_iZ_i^Tz_i=z_i$ ，这么写把一个约束条件考虑了进去。然后文章在这里再加了一项：
$\max_z \sum_{i,j} z_i^T P_i^T \widetilde{K_i}^{-T} K_iK_j^T \widetilde{K_j}^{-1} P_jz_j+\sum_iz_i^Tz_i \\ s.t.\ z_i^T z_i=1=1$

进一步写为：
$max_z z^TAz \\ s.t.\ z_i^T z_i=1$

个人觉得加的这一项不是很必要，可能是因为核函数的缘故才要这么加，难不成文章认为 $y_i^TK_iK_i^Ty_i=0$ 吗？不可思议。
$A$ 是分块矩阵，定义为：
$A_{ij}=\left\{ \begin{array}{ccc} P_i^T \widetilde{K_i}^{-T} K_iK_j^T \widetilde{K_j}^{-1} P_j & \ & for: i\neq j \\ I & \ & for: i=j \end{array} \right.$

然后文章里证明了一下 $A$ 矩阵是正定的，这里不写了。因此可以用Horst算法，如下。
在这里插入图片描述

真的真的很费劲。理解Horst算法就用 $d = 1$ 就好了。

总结

MCCA在使用上没有什么可用性，也不是这个领域比较好的算法，但是读完这篇论文，我们至少知道了多元特征值问题可以用Horst算法解，并能写出这种名为“MCCA”的算法的代码了。令我有点惊讶的是，直接在网上搜Horst算法没搜出来什么有用的东西，但是一搜多元特征值问题就看到有硕士论文是做这个Horst算法改进的。这个故事告诉我们，在别的领域其实研究的比较多的，已经有经典解的问题，只是因为我们的不熟悉而让自己被卡了壳。所以要多学习，多了解啊。

参考文献

[1] Rupnik J, Shawe-Taylor J. Multi-view canonical correlation analysis[C]//Conference on Data Mining and Data Warehouses (SiKDD 2010). 2010: 1-4.

BigYouYou

关注

2
点赞
踩
24

收藏

觉得还不错? 一键收藏
0
评论
多视角子空间学习系列之 MCCA (Multi-view CCA) 多视角CCA Horst算法

优化目标前面已经讲了典型相关分析CCA，并且提到，CCA是一种双视角的方法，只能处理视角数为2的情况。为了将CCA应用于更多视角，一些研究人员提出了MCCA(Multi-view CCA)，即多视角CCA，将CCA直观地扩展到多视角版本。给定mmm个视角X1,X2,⋯ ,Xm{X_1,X_2,\cdots,X_m}X1,X2,⋯,Xm，其中第iii个视角Xi∈RDi×nX_i\in \ma...
复制链接

扫一扫