机器学习笔记之——降维（一）MDS

最新推荐文章于 2024-02-05 00:18:32 发布

caitzh

最新推荐文章于 2024-02-05 00:18:32 发布

阅读量1.2k

点赞数

分类专栏：机器学习文章标签：机器学习降维

本文链接：https://blog.csdn.net/caitzh/article/details/88752956

版权

机器学习专栏收录该内容

11 篇文章 1 订阅

订阅专栏

MDS（Multiple Dimensional Scaling）

关键思想：降维前后两点距离不变

假设 m 个 d 维样本在原始空间的距离矩阵为 $D\in \mathbb{R}^{m\times m}$ , 降维后的样本矩阵 $Z\in \mathbb{R}^{d'\times m}$ , 其中 $d'\ll d$ , 每一列 $z_i$ 表示一个降维后的样本。

令 $B=Z^TZ\in \mathbb{R^{m\times m}}$ , $B$ 是降维后的内积矩阵， $B_{ij}=z_i^Tz_j$ ，我们要求降维之后任意两点之间的距离仍然和原始空间一样，则
$\begin{aligned} D_{ij}^2 = \left \| z_i - z_j\right \|^2 & =\left \| z_i \right \|^2 + \left \| z_j \right \|^2-2z_i^Tz_j \\ & = B_{ii}+B_{jj}-2B_{ij} \end{aligned} \tag{1}$

为了方便，假设降维后的样本被中心化，即 $\sum_{i=1}^mz_i=0$ ，则 $B$ 矩阵的行与列之和都为 0，比如第 i 行之和，以及第j列的和分别为：
$\sum_{j=1}^mB_{ij}=\sum_{j=1}^mz_i^Tz_j=z_i^T\sum_{j=1}^mz_j=z_i^T\cdot 0=0$ $\sum_{i=1}^mB_{ij}=\sum_{i=1}^mz_i^Tz_j=(\sum_{i=1}^mz_i)^T\cdot z_j=0^Tz_j=0$

利用公式(1)，可求矩阵 D 的第 j 列的平方和为：
$\begin{aligned} \sum_{i=1}^m D_{ij}^2 & = \sum_{i=1}^m (B_{ii}+B_{jj}-2B_{ij}) \\ & = \sum_{i=1}^mB_{ii}+\sum_{i=1}^mB_{jj}-2\sum_{i=1}^mB_{ij} \\ & = tr(B)+ mB_{jj} \\ \end{aligned} \tag{2}$

同理，矩阵 D 的第 i 行的平方和为：
$\begin{aligned} \sum_{j=1}^m D_{ij}^2 & = \sum_{j=1}^m (B_{ii}+B_{jj}-2B_{ij}) \\ & = \sum_{j=1}^mB_{ii}+\sum_{j=1}^mB_{jj}-2\sum_{j=1}^mB_{ij} \\ & = mB_{ii}+tr(B) \end{aligned} \tag{3}$

矩阵 D 所有元素平方和为：
$\begin{aligned} \sum_{i=1}^m \sum_{j=1}^m D_{ij}^2 & = \sum_{i=1}^m(mB_{ii}+tr(B)) \\ & = m\sum_{i=1}^mB_{ii} +\sum_{i=1}^mtr(B) \\ & = m\cdot tr(B) + m\cdot tr(B) \\ & = 2m\cdot tr(B) \end{aligned} \tag{4}$

令 $avg(D^2_{row\_i})$ 表示 D 的第 i 行的平方和的平均值。即 $avg(D^2_{row\_i})=1/m\sum_{j=1}^m D_{ij}^2$ , 同理，令 $avg(D^2_{col\_j})$ 表示 D 的第 j 列的平方和的平均值，令 $avg(D^2)$ 表示 D 的所有元素平方和的平均值，则由公式 (4) 分别可得：
$tr(B)=\frac{\sum_{i=1}^m \sum_{j=1}^m D_{ij}^2}{2m}=\frac{m}{2}\cdot \frac{\sum_{i=1}^m \sum_{j=1}^m D_{ij}^2}{m^2} =\frac{m}{2}avg(D^2)$
由上式和公式(2), (3) 分别可得：
$B_{ii}= \frac{\sum_{j=1}^m D_{ij}^2-tr(B)}{m}=\frac{\sum_{j=1}^m D_{ij}^2}{m}-\frac{tr(B)}{m}=avg(D^2_{row\_i})-\frac{tr(B)}{m}=avg(D^2_{row\_i})-\frac{1}{2}avg(D^2)$ $B_{jj}= \frac{\sum_{i=1}^m D_{ij}^2-tr(B)}{m}=\frac{\sum_{i=1}^m D_{ij}^2}{m}-\frac{tr(B)}{m}=avg(D^2_{col\_j})-\frac{tr(B)}{m}=avg(D^2_{col\_j})-\frac{1}{2}avg(D^2)$
最后，根据公式(1)和上述两个式子，可以得出 $B_{ij}$ 的计算公式：
$\begin{aligned} B_{ij} & =\frac{B_{ii}+B_{jj}-D_{ij}^2}{2} \\ & =\frac{avg(D^2_{row\_i})-\frac{1}{2}avg(D^2)+avg(D^2_{col\_i})-\frac{1}{2}avg(D^2)-D_{ij}^2}{2} \\ & = \frac{avg(D^2_{row\_i})+avg(D^2_{col\_j})-avg(D^2)-D_{ij}^2}{2} \end{aligned} \tag{5}$
经过上述一系列的计算，我们便可以在已知样本在原始空间的距离信息(D矩阵)的情况下，由公式(5)计算得到降维之后的内积矩阵 $B=Z^TZ$ 。由公式(1)我们可以知道，只要内积矩阵 B 一确定，任意两点之间的距离 $\left \| z_i - z_j\right \|^2$ 也就确定了。现在我们只要找到一个矩阵 $Z$ ，使得其内积矩阵为 $B$ , 即 $Z^TZ=B$ , 我们就可以保证其距离 $\left \| z_i - z_j\right \|^2$ 是等于 $D_{ij}^2$ 的。

现在问题是如何找到满足 $Z^TZ=B$ 的 $Z$ ，只要利用特征值分解就能简单地做到。对矩阵 $B$ 进行特征值分解，有 $B=V\Lambda V^T$ ，其中 $\Lambda$ 是特征值从大到小排列组成的对角矩阵， $V$ 是特征向量矩阵。
$B=V\Lambda V^T= \begin{bmatrix}v_1 \cdots v_m\end{bmatrix} \begin{bmatrix} \lambda_1 & \cdots & 0 \\ \vdots & \ddots & \vdots \\ 0 & \cdots & \lambda_m \end{bmatrix} \begin{bmatrix} v_1^T \\ \vdots \\ v_m^T \end{bmatrix} = \lambda_1v_1v_1^T + \lambda_2v_2v_2^T+ \cdots + \lambda_mv_mv_m^T \tag{6}$

从上式可以看出，若某个特征值 $\lambda_i$ 为0，则其对应的项 $\lambda_iv_iv_i^T$ 也为 0，去掉这些项之后和仍然不变。假设 $\Lambda$ 中有 $k$ 个非零的特征值， $\Lambda_*=diag(\lambda_1,\lambda_2,...,\lambda_k)$ ， $V_*$ 表示对应的特征向量矩阵，则 $B=V_*\Lambda_* V_*^T$ , 可以得出 $Z$ 为：
$Z=\Lambda_*^{1/2}V_*^T$ 可以很简单地验证， $Z^TZ=(\Lambda_*^{1/2}V_*^T)^T\Lambda_*^{1/2}V_*^T=V_*\Lambda_*^{1/2}\Lambda_*^{1/2}V_*^T=V_*\Lambda_*V_*^T=B$ , 至此，我们就找到了满足条件的 $Z$ 。这样得到的向量 $z_i \in \mathbb{R}^k$ 是 k 维的，有时候 k 还是很大。在实际中，为了有效地降维，不要求降维前后距离严格相等，只要距离大致接近即可。因此可以只取 $d^{'}$ 个最大的特征值，相当于在公式(6)中只取前面 $d^{'}$ 个项，将后面较小的项舍弃，其中 $\ll d$ 。这样得到的 $Z^TZ$ 和 $B$ 虽然不能严格相等，但是差距不大，也就意味着距离与原空间也比较接近。
令 $\tilde{\Lambda}=diag(\lambda_1,\lambda_2,...,\lambda_{d'})$ , $\tilde{V}$ 表示对应的特征向量矩阵，则
$\tilde{\Lambda}^{1/2}\tilde{V}^T \tag{7}$
这得到的便是最终的结果， $z_i, \cdots , z_m \in \mathbb{R}^{d'}$ 是降维后的向量。

具体算法过程如下：

输入：距离矩阵 D, 降维后的维度 d'
过程：
    1. 根据公式(5)计算出内积矩阵 B
    2. 对矩阵 B 做特征值分解
    3. 取 B 最大的 d' 个特征值及特征向量，按公式(7)计算出 Z
输出：Z, Z 的每一列为样本降维后的结果

caitzh

关注

0
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录