典型相关分析及相关知识

最新推荐文章于 2023-07-19 11:21:13 发布

SmartDazhi

最新推荐文章于 2023-07-19 11:21:13 发布

阅读量2.4k

点赞数 2

分类专栏：跨模态文章标签：典型相关分析CCA

本文链接：https://blog.csdn.net/SmartDazhi/article/details/75330107

版权

跨模态专栏收录该内容

3 篇文章 0 订阅

订阅专栏

1. 典型相关分析及相关知识

1.1介绍

典型相关分析是用来分析向量（组）X和Y之间映射关系的方法。
一般的线性回归问题中，都具有一个或多自变量X和因变量Y，其数学表达形式为:假设 $X\in{R^m},Y\in{R^m}$ ，那么可以建立等式Y=AX，矩阵表示如下

其中 ${y_i} = {w_i}^Tx$ ，形式和线性回归一样，可以用解n元一次方程组的方法来解得 ${w_i}$ ，当特征数量n较小时可以使用正规方程方法，即 ${w_i} = {({X^T}X)^{{\rm{ - }}1}}{X^T}{Y_i}$ 其中 $X$ 是 ${x_i}$ 的训练集， $Y$ 是 ${y_i}$ 的训练集。如果 $X_{i}^{T}{{X}_{i}}$ 不可逆,也就是说训练集有线性相关向量,此时可以采用梯度下降算法进行参数求解。
以上为一般线性回归的内容，探求的是自变量X和因变量Y之间的线性关系。如果将X和Y都看成整体，考察这两个整体之间的关系，可以将整体表示成X和Y各自特征间的线性组合，也就是考察 ${{a}^{\text{T}}}x$ 和 ${{b}^{T}}y$ 之间的关系。
举一个简单的例子，以便表述该方法的实现步骤。我们想考察一个学生的运动能力（运动时长，运动强度）与他的学习能力（学习时长，学习效率）之间的关系，那么形式化为：
$u={{a}_{1}}{{x}_{1}}+{{a}_{2}}{{x}_{2}}$ 和 $v={{b}_{1}}{{y}_{1}}+{{b}_{2}}{{y}_{2}}$
然后使用Pearson相关系数来度量u和v的关系
${{\rho }_{X,Y}}=corr(X,Y)=\frac{\operatorname{cov}(X,Y)}{{{\sigma }_{X}}{{\sigma }_{Y}}}\text{=}\frac{\text{E}[(X-{{u}_{X}})(Y-{{u}_{Y}})]}{{{\sigma }_{X}}{{\sigma }_{Y}}}$ (1.2)
我们期望寻求一组最优解a和b,使得Corr(u,v)最大这样得到的a和b就是使得u和v具有最大关联的权重。

1.2推导求解

1.2.1协方差矩阵

协方差的作用是判断两个变量是否为同向变化，若都是增大的方向，协方差为正值，若两个变量为反向变化，则协方差为负值。协方差的数值大小，表明程度的大小。其数学表达式如下
- $Cov(X,Y)=E((X-E(X))(Y-E(Y)))$ (1.3)
若X,Y不是实数，而是一个列向量，协方差计算出的矩阵即为协方差矩阵，以下为协方差矩阵计算过程。
例，样本数据为 ${{x}_{1}}={{(1,2)}^{T}},{{x}_{2}}=(3,6),{{x}_{3}}={{(4,2)}^{T}},{{x}_{4}}={{(5,2)}^{T}}$ 所有样本都是二维的， $X,Y$ 表示为
$X={{(1,3,4,5)}^{T}} , Y={{(2,6,2,2)}^{T}}$

协方差计算公式为
${{\sum }_{ij}}=\operatorname{cov}({{X}_{i}},{{X}_{j}})=E[({{X}_{i}}-{{u}_{i}})({{X}_{j}}-{{u}_{j}})]$ (1.4)
由于这里只有X,Y两列，所以得到的协方差矩阵是2 $×$ 2的矩阵形式。
${{\sum }_{11}}=(1-3.25,3-3.25,5-3.25,5-3.25)\times {{(1-3.25,3-3.25,5-3.25,5-3.25)}^{T}}\times \frac{1}{4-1}=2.9167$
${{\sum }_{12}}=(1-3.25,3-3.25,5-3.25,5-3.25)\times {{(2-3,6-3,2-3,2-3)}^{T}}\times \frac{1}{4-1}=-0.3333$
${{\sum }_{21}}=(2-3,6-3,2-3,2-3)\times {{(1-3.25,3-3.25,5-3.25,5-3.25)}^{T}}\times \frac{1}{4-1}=-0.3333$
${{\sum }_{22}}=(2-3,6-3,2-3,2-3)\times {{(2-3,6-3,2-3,2-3)}^{T}}\times \frac{1}{4-1}=4.0000$

matlab计算实例

至此无论是二维数据，还是高维数据，均可由公式（1.4）计算的出协方差矩阵。

1.2.1 CCA公式推导

给定两组向量x和y,x的维度为 ${{p}_{1}}$ ,y的维度为 ${{p}_{2}}$ ，默认 ${{p}_{1}}\le {{p}_{2}}$ 。形式化表示如下：
$z=\left[ x\text{ y} \right] , E[z]=[\overline{x}\text{ }\overline{y}]$
$\sum$ 是z的协方差矩阵，左上角 ${{\sum }_{11}}$ 为x自己的协方差矩阵；右上角 ${{\sum }_{12}}$ 是Cov(x,y);左下角是Cov(y,x)， ${{\sum }_{11}}$ 与 ${{\sum }_{12}}$ 互为转置关系；右下角 ${{\sum }_{22}}$ 为y的协方差矩阵。
由本文开始所举的运动能力与学习能力关系的例子入手，定义
$u={{a}^{T}}x,v={{b}^{T}}y$
我们可以计算出u和v的方差和协方差：
$V a r (u) = V a r (a T x) = 1 N \sum i = 1 N (a T x - a T x ¯) 2 = a T 1 N \sum i = 1 N (x - x ¯) 2 a = a T \sum 11 a$ $\begin{align} & Var(u)=Var({{a}^{T}}x) \\ & =\frac{1}{N}\sum\limits_{i=1}^{N}{{{({{a}^{T}}x-{{a}^{T}}\overline{x})}^{2}}} \\ & ={{a}^{T}}\frac{1}{N}\sum\limits_{i=1}^{N}{(x-\overline{x}}{{)}^{2}}a \\ & ={{a}^{T}}{{\sum }_{11}}a \end{align}$
同理得 $Var(v)={{b}^{T}}{{\sum }_{22}}b$
$C o v (u, v) = C o v (a T x, b T y) = a T C o v (x, y) b = a T \sum 12 b$ $\begin{align} & Cov(u,v)=Cov({{a}^{T}}x,{{b}^{T}}y) \\ & ={{a}^{T}}Cov(x,y)b \\ & ={{a}^{T}}{{\sum }_{12}}b \end{align}$
综上整理， $Var(u)={{a}^{T}}{{\sum }_{11}}a , Var(v)={{b}^{T}}{{\sum }_{22}}b,Cov(u,v)={{a}^{T}}{{\sum }_{12}}b$
最后，终于到了计算 $Corr（u,v）$ 的时刻了，根据（1.2）相关系数计算公式有
${{\rho }_{uv}}=Corr(u,v)=\frac{{{a}^{T}}{{\sum }_{12}}b}{\sqrt{{{a}^{T}}{{\sum }_{11}}a}\sqrt{{{b}^{T}}{{\sum }_{22}}b}}$ （1.5）
让我们再回到运动能力与学习能力例子，若是分析这两种能力之间的关系，那么我们该探求两种能力的最强关系，还是最弱关系？显然对于本例探求最弱关系是没有意义的，接下从表征两种能力关系的 ${{\rho }_{uv}}$ 入手，求出 ${{\rho }_{uv}}$ 最大值时，对应系数a,b的具体值。
求 ${{\rho }_{uv}}$ 的最大值，这是一个优化问题。由于公式（1.5）中等式左侧的分子与分母中同有a,b，这会使分子和分母同时缩放，从而求不出最优解。所以添加限制条件:
${{a}^{T}}{{\sum }_{11}}a=1,{{b}^{T}}{{\sum }_{22}}b=1$
$Maximize\to {{a}^{T}}{{\sum }_{12}}b$
构造拉格朗日函数来求解最优解，推导如下：
$L={{a}^{T}}{{\sum }_{12}}b-\frac{\lambda }{2}\left( {{a}^{T}}{{\sum }_{11}}a-1 \right)-\frac{\theta }{2}\left( {{b}^{T}}{{\sum }_{22}}b-1 \right)$
对函数求偏导，得
$\frac{\partial L}{\partial a}={{\sum }_{12}}b-\lambda {{\sum }_{11}}a$
$\frac{\partial L}{\partial b}={{a}^{T}}{{\sum }_{12}}-\theta {{b}^{T}}{{\sum }_{22}}$
令 $\frac{\partial L}{\partial a}=0$ ， $\frac{\partial L}{\partial b}=0$ ，得：
${{\sum }_{12}}b-\lambda {{\sum }_{11}}a=0$ （1.6）
${{\sum }_{21}}a-\theta {{\sum }_{22}}b=0$ （1.7）
等式（1.6）两端乘 ${{a}^{T}}$ ，等式（1.7）两端乘 ${{b}^{T}}$ ，得：
${{a}^{T}}{{\sum }_{12}}b-\lambda {{a}^{T}}{{\sum }_{11}}a=0$
${{b}^{T}}{{\sum }_{21}}a-\theta {{b}^{T}}{{\sum }_{22}}b=0$
约束条件 : ${{a}^{T}}{{\sum }_{11}}a=1$ , ${{b}^{T}}{{\sum }_{22}}b=1$ ,则有
$\lambda ={{a}^{T}}{{\sum }_{12}}b,\theta ={{b}^{T}}{{\sum }_{21}}a$
仔细观察，其实 $\lambda =\theta ={{a}^{T}}{{\sum }_{12}}b$
对照公式（1.5）来看 ${{\rho }_{\text{uv}}}$ 能取多大值，完全取决于 ${{a}^{T}}{{\sum }_{12}}b$ ，也就是这里的 $\lambda$ ，所以接下来的任务是求最大的 $\lambda$ 。
将上面等式（1.6）（1.7）变换得
$\sum _{11}^{-1}{{\sum }_{12}}b=\lambda a$ （1.8）
$\sum _{22}^{-1}{{\sum }_{21}}a=\lambda b$ （1.9）
将上式写成矩阵形式

令 $B=\left[ \begin{matrix} {{\sum }_{11}} & 0 \ 0 & {{\sum }_{22}} \ \end{matrix} \right] ,A=\left[ \begin{matrix} 0 & {{\sum }_{12}} \\ {{\sum }_{21}} & 0 \\ \end{matrix} \right] , w=\left[ \begin{matrix} a \\ b \\ \end{matrix} \right]$ 则有
${{B}^{-1}}Aw=\lambda w$ （1.10）
求 $\lambda$ 则转化为求特征值，只不过我们当前需要的是数值最大的那个特征值。
求矩阵 ${{B}^{-1}}A$ 的特征值和特征向量理论上完全可行，只不过维度过大，算法复杂度较高，不如分块而治之，故将（1.9）带入（1.8），整理得：
$\sum _{11}^{-1}{{\sum }_{12}}\sum _{22}^{-1}{{\sum }_{21}}a={{\lambda }^{2}}a$ （1.11）
通过求矩阵 $\sum _{11}^{-1}{{\sum }_{12}}\sum _{22}^{-1}{{\sum }_{21}}$ 的特征值 ${{\lambda }^{2}}$ 和对应的特征向量 $a$ ，再将 $\lambda$ 和特征向量 $a$ 带入等式（1.9）中，即可得。
假设按照上述过程，得到了最大时 ${{\lambda }_{1}}$ 的 ${{a}_{1}}$ 和 ${{b}_{1}}$ 。那么 ${{a}_{1}}$ 和 ${{b}_{1}}$ 称为典型变量（canonical variates）， ${{\lambda }_{1}}$ 即为u和v的最大相关系数。
至于求第二特征变量对，及第三特征变量等等，这些为数值上第二大特征值对应的特征向量，第三大特征值对应的特征向量，其计算方法同上述过程。

1.3 CCA在特征子空间投影的应用

典型相关性分析法是一种最大相关性策略，利用该方法可挖掘不同模态信息底层特征之间的潜在相关关系，学习最优子空间投影矩阵，以实现异构特征空间转换。
通过维基百科公开数据库Wikipedia articles，可获得图像文本的特征数据压缩文件，分别有2173个“图片—文本”训练样本中的图像和文本提取出的特征，图像特征是128维的SIFT特征，文本特征是由10个主题的LDA文本模型生成的10维特征。关于图像和文本的特征提取方法与过程，不是本文叙述的着重点，暂时不予叙述。
基于相关性的跨模态信息检索实质上就是在同形特征子空间O中，采用某种距离计算方法，度量查询信息资源与被检索信息资源之间的相关性，并按照相关性大小排序[1]。我们现在有图像特征矩阵，大小为2173 $\times$ 128，文本特征矩阵，大小为2173 $\times$ 10。
根据参考文献[1]可以知道，可使用CCA计算出图像特征与文本特征的相关系数及特征子空间参数矩阵，典型相关性分析的形式表示为：
$[Wx,Wy,r]=cca(X,Y)$ (1.12)
其中的X表示的就是文本的向量表示，Y就是图像的向量表示，图像特征与文本特征的相关系数记为 $r={{[{{r}_{1}},{{r}_{2}}\cdots {{r}_{d}}]}^{T}}$ 且 ${{r}_{1}}\ge {{r}_{2}}\ge \cdots \ge {{r}_{d}}$ ，图像特征对应的特征子空间参数矩阵记为Wx，大小为128 $\times$ d；文本特征对应的特征子空间参数矩阵记为Wy,大小为10 $\times$ d。
特征子空间投影:
- ${{O}_{x}}=X\times Wx , {{O}_{x}}$ 为2173 $\times$ d
- ${{O}_{y}}=Y\times Wy , {{O}_{y}}$ 为2173 $\times$ d
  至此，利用典型相关性分析在子空间特征投影完成。