LLE 证明

最新推荐文章于 2024-07-15 20:07:02 发布

「已注销」

最新推荐文章于 2024-07-15 20:07:02 发布

阅读量241

点赞数

文章标签：抽象代数

本文链接：https://blog.csdn.net/int_main_Roland/article/details/124318108

版权

a LLE 权重求解

$x_i \in \mathbb{R}^{d \times 1}$ , $w_i \in \mathbb{R}^{1 \times n}$ , $[x_1 \dots x_n]$ , $w_i = [w_{i1} \dots w_{in}]$ .

$\begin{aligned} \min_{w_i} & \sum_{i=1}^{n} \left\| x_i - \sum_{j=1}^{n} w_{ij} x_j \right\|_2^2 \\ {\rm s.t.} & \sum_{j=1}^{n} w_{ij} = 1 \\ \end{aligned}$

$\begin{aligned} \sum_{i=1}^{n} \left\| x_i - \sum_{j=1}^{n} w_{ij} x_j \right\|_2^2 &= \sum_{i=1}^{n} \left\| x_i - \sum_{j=1}^{n} w_{ij} x_j \right\|_2^2 \\ &= \sum_{i=1}^{n} \left\| \sum_{j=1}^{n} w_{ij} x_i - \sum_{j=1}^{n} w_{ij} x_j \right\|_2^2 \\ &= \sum_{i=1}^{n} \left\| \sum_{j=1}^{n} w_{ij} (x_i - x_j) \right\|_2^2 \\ &= \sum_{i=1}^{n} \left\| (x_i1^T-X)w_i^T \right\|_2^2 \\ &= \sum_{i=1}^{n} w_i(x_i1^T-X)^T(x_i1^T-X)w_i^T \\ \end{aligned}$

$\sum_{j=1}^{n} w_{ij} = 1 \Leftrightarrow w_i 1 = 1$

$\sum_{i=1}^{n} \left( w_i(x_i1^T-X)^T(x_i1^T-X)w_i^T + \mu_i (w_i1-1) \right)$

$\begin{aligned} 0 = \frac{\partial}{\partial w_i} L &= \frac{\partial}{\partial w_i} \sum_{i=1}^{n} \left( w_i(x_i1^T-X)^T(x_i1^T-X)w_i^T + \mu_i (w_i1-1) \right) \\ &= \frac{\partial}{\partial w_i} \left( w_i(x_i1^T-X)^T(x_i1^T-X)w_i^T + \mu_i (w_i1-1) \right) \\ &= 2w_i(x_i1^T-X)^T(x_i1^T-X) + \mu_i 1^T \\ \end{aligned}$

$w_i = -\frac{1}{2} \mu_i 1^T (x_i1^T-X)^{-1}(x_i1^T-X)^{-T}$

$w_i1 = -\frac{1}{2} \mu_i 1^T (x_i1^T-X)^{-1}(x_i1^T-X)^{-T} 1 \\$

$-\frac{1}{2} \mu_i = \frac{1}{1^T (x_i1^T-X)^{-1}(x_i1^T-X)^{-T} 1} \\$

$\begin{aligned} w_i &= -\frac{1}{2} \mu_i 1^T (x_i1^T-X)^{-1}(x_i1^T-X)^{-T} \\ &= \frac{1^T (x_i1^T-X)^{-1}(x_i1^T-X)^{-T}}{1^T (x_i1^T-X)^{-1}(x_i1^T-X)^{-T} 1} \\ &= \frac{1^T [(x_i1^T-X)^T(x_i1^T-X)]^{-1}}{1^T [(x_i1^T-X)^T(x_i1^T-X)]^{-1} 1} \\ \end{aligned}$

$\begin{aligned} w_{ij} &= \left( \frac{1^T [(x_i1^T-X)^T(x_i1^T-X)]^{-1}}{1^T [(x_i1^T-X)^T(x_i1^T-X)]^{-1} 1} \right)_j \\ &= \frac{\left( 1^T [(x_i1^T-X)^T(x_i1^T-X)]^{-1} \right)_j}{1^T [(x_i1^T-X)^T(x_i1^T-X)]^{-1} 1} \\ &= \frac{\left( 1^T [(x_i1^T-X)^T(x_i1^T-X)]^{-1} \right)_j}{\sum\limits_{j=1}^{n} \left( 1^T [(x_i1^T-X)^T(x_i1^T-X)]^{-1} \right)_j} \\ &= \frac{\sum\limits_{k=1}^{n} \left( [(x_i1^T-X)^T(x_i1^T-X)]^{-1} \right)_{kj}}{\sum\limits_{j=1}^{n} \sum\limits_{k=1}^{n} \left( [(x_i1^T-X)^T(x_i1^T-X)]^{-1} \right)_{kj}} \\ \end{aligned}$

实际上 $x_i1^T-X)^T(x_i1^T-X)]$ 不可逆, 原因是 $x_i1^T-X)$ 第 $i$ 列是 $0$ , 所以我们实际采用

$w_i = \frac{1^T [(x_i1^T-X^{(i)})^T(x_i1^T-X^{(i)})]^{-1}}{1^T [(x_i1^T-X^{(i)})^T(x_i1^T-X^{(i)})]^{-1} 1}$

$w_{ij} = \frac{\sum\limits_{k=1}^{n^{(i)}} \left( [(x_i1^T-X^{(i)})^T(x_i1^T-X^{(i)})]^{-1} \right)_{kj}}{\sum\limits_{j'=1}^{n^{(i)}} \sum\limits_{k=1}^{n^{(i)}} \left( [(x_i1^T-X^{(i)})^T(x_i1^T-X^{(i)})]^{-1} \right)_{kj'}}$

其中 $X^{(i)}$ 仅包含 $x_i$ 的近邻(不包括 $x_i$ 自身), 共 $n^{(i)}$ 个近邻.

b LLE 权重旋转/平移/缩放不变性

$w_i(X) = \frac{1^T [(x_i1^T-X)^T(x_i1^T-X)]^{-1}}{1^T [(x_i1^T-X)^T(x_i1^T-X)]^{-1} 1}$

记对 $x_i$ 的变换为 $f(x_i)$ , 记对 $X$ 的变换为 $F (X)$ . $w_i(T(X))=w_i(X)$ , 的充分条件有

$\begin{aligned} & \frac{1^T [(f(x_i)1^T-F(X))^T(f(x_i)1^T-F(X))]^{-1}}{1^T [(f(x_i)1^T-F(X))^T(f(x_i)1^T-F(X))]^{-1} 1} = \frac{1^T [(x_i1^T-X)^T(x_i1^T-X)]^{-1}}{1^T [(x_i1^T-X)^T(x_i1^T-X)]^{-1} 1} \\ \Leftarrow& (f(x_i)1^T-F(X))^T(f(x_i)1^T-F(X)) = (x_i1^T-X)^T(x_i1^T-X) \\ \Leftarrow& f(x_i)1^T-F(X) = x_i1^T-X \\ \end{aligned}$

旋转 $f(x_i)=Qx_i, F(X)=QX$ , 证明充分条件

$\begin{aligned} & (f(x_i)1^T-F(X))^T(f(x_i)1^T-F(X)) \\ &= (Qx_i1^T-QX)^T(Qx_i1^T-QX) \\ &= [Q(x_i1^T-X)]^T[Q(x_i1^T-X)] \\ &= (x_i1^T-X)^TQ^TQ(x_i1^T-X) \\ &= (x_i1^T-X)^TI(x_i1^T-X) \\ &= (x_i1^T-X)^T(x_i1^T-X) \\ \end{aligned}$

平移 $f(x_i)=x_i+v, F(X)=X+v1^T$ , 证明充分条件

$\begin{aligned} & f(x_i)1^T-F(X) \\ &= (x_i+v)1^T-(X+v1^T) \\ &= x_i1^T+v1^T-X-v1^T \\ &= x_i1^T-X \\ \end{aligned}$

伸缩 $f(x_i)=ax_i, F(X)=aX$ , 证明充要条件

$\begin{aligned} & \frac{1^T [(f(x_i)1^T-F(X))^T(f(x_i)1^T-F(X))]^{-1}}{1^T [(f(x_i)1^T-F(X))^T(f(x_i)1^T-F(X))]^{-1} 1} \\ &= \frac{1^T [(ax_i1^T-aX)^T(ax_i1^T-aX)]^{-1}}{1^T [(ax_i1^T-aX)^T(ax_i1^T-aX)]^{-1} 1} \\ &= \frac{1^T [a^2(x_i1^T-X)^T(x_i1^T-X)]^{-1}}{1^T [a^2(x_i1^T-X)^T(x_i1^T-X)]^{-1} 1} \\ &= \frac{a^{-2} 1^T [(x_i1^T-X)^T(x_i1^T-X)]^{-1}}{a^{-2} 1^T [(x_i1^T-X)^T(x_i1^T-X)]^{-1} 1} \\ &= \frac{1^T [(x_i1^T-X)^T(x_i1^T-X)]^{-1}}{1^T [(x_i1^T-X)^T(x_i1^T-X)]^{-1} 1} \\ \end{aligned}$

c LLE 低维表示意义

$\begin{aligned} \max_{y_i} & \sum_{i=1}^{n} \left\| y_i - \sum_{j=1}^{n} w_{ij} y_j \right\|_2^2 \\ {\rm s.t.} & \sum\limits_{i=1}^n y_i=0 & Y1=0 \\ & \sum\limits_{i=1}^n y_iy_i^T=I & YY^T=I \\ \end{aligned}$

为什么保持了局部几何性质？
$\sum_{i=1}^{n} \left\| x_i - \sum_{j=1}^{n} w_{ij} x_j \right\|_2^2 = \sum_{i=1}^{n} \left\| y_i - \sum_{j=1}^{n} w_{ij} y_j \right\|_2^2$
$x_i$ 和 $y_i$ 共享了局部的权重 $w_i$ , 保持邻域内样本之间的线性关系.
样本点 $x_i$ 的坐标能通过它的邻域样本 $x_j$ 通过线性组合而重构出来, 降维后样本点 $y_i$ 的坐标能通过它的邻域样本 $y_j$ 通过相同的线性组合而重构出来. 从而, 原空间邻域内样本之间的线性关系在降维后的低维空间以保持.

从统计的角度

$Y 1 = 0$ 消去各个维度均值不确定性.
$YY^T=I$ 消去各个维度方差不确定性,消去各个维度之间线性相关性不确定性.

从几何的角度

$Y 1 = 0$ 消去平移不确定性.
$YY^T=I$ 消去伸缩不确定性.

证明:

$Y 1 = 0$ 消去平移不确定性?
$Y'=Y+v1^T$ , $Y^{'} 1 = 0 .$ .
$Y'1=Y1+v1^T1=0+v=v\stackrel{\rm set}{=}0 \Rightarrow v=0$
$v$ 没有自由度, 所以消去了平移不确定性.
$YY^T=I$ 消去旋转不确定性?
$Y^{'} = Q Y$ , $Q^TQ=I$ , $Y^{'} 1 = 0$ , $Y'Y'^T=I$ .
$Y'1=QY1=0\stackrel{\rm set}{\equiv}0$
$Y'Y'^T=QYY^TQ^T=QQ^T=I\stackrel{\rm set}{\equiv}I$
$Q$ 仍有自由度, 所以没有消去旋转不确定性.
$YY^T=I$ 消去伸缩不确定性?
$Y^{'} = a Y$ , $\neq 0$ , $Y'Y'^T=I$ .
$Y'Y'^T=(aY)(aY)^T=a^2YY^T=a^2I\stackrel{\rm set}{=}I \Rightarrow a=1$
$a$ 没有自由度, 所以消去了伸缩不确定性.

没有消去旋转不确定性, 会对新的表示产生负面的影响.

$y_i$ 分量之间可能独立, 但由于没有消去旋转不确定, 实际得到 $y_i$ 分量之间不独立.
$Y$ 有稀疏解, 但由于没有消去旋转不确定性, 实际得到一个稠密解.
实际上 $Q^TQ=I$ , $Q$ 的语义除了旋转, 还有反射和排列.
从信号处理的角度, 消去旋转不确定性相当于盲信号分离(通常假设信号之间独立).
从机器学习的角度, 我们可以添加适当的正则化项, 例如 $Y\|_1$ , 迫使尽量多的分量与坐标轴同向, 消除一部分旋转不确定性, 进而获得稀疏解.

d LLE 低维表示优化
引理迹(trace)的性质
tr(AB) = tr(BA) tr(ABC) = tr(CAB) = tr(BCA)

$y_i \in \mathbb{R}^{d' \times 1}$ , $w_i \in \mathbb{R}^{1 \times n}$ , $[y_1 \dots y_n]$ , $w_i = [w_{i1} \dots w_{in}]$ .
$(e_i)_k = \begin{cases} 1 & {\rm if} ~ k=1 \\ 0 & {\rm otherwise} \\ \end{cases}$ , $[e_1 \dots e_n]$ .

注意 $I-W^T)^T$ 和 $Y^TY$ 和 $I-W^T)$ 都是 $\times n$ 的方形矩阵, 可以使用引理.

$\begin{aligned} \sum_{i=1}^{n} \left\| y_i - \sum_{j=1}^{n} w_{ij} y_j \right\|_2^2 &= \sum_{i=1}^{n} \left\| Ye_i - Yw_i^T \right\|_2^2 \\ &= \left\| YI - YW^T \right\|_F^2 \\ &= \left\| Y(I-W^T) \right\|_F^2 \\ &= {\rm tr}\{[Y(I-W^T)]^T[Y(I-W^T)]\} \\ &= {\rm tr}[(I-W^T)^TY^TY(I-W^T)] \\ &= {\rm tr}[(I-W^T)(I-W^T)^TY^TY] \\ &= {\rm tr}[(I-W)^T(I-W)Y^TY] \\ &= {\rm tr}[MY^TY] \\ &= \sum_{k=1}^{n}\sum_{i=1}^{n} M_{ki} \left(Y^TY\right)_{ik} \\ &= \sum_{k=1}^{n}\sum_{i=1}^{n} M_{ki} y_i^Ty_k \\ \end{aligned}$

e LLE 低维表示优化求解

$\begin{aligned} M &= (I-W)^T(I-W) \\ &= (I-W^T)(I-W) \\ &= I-W-W^T+W^TW \\ \end{aligned}$

e.1 $M$ 的半正定性

要证明 $M$ 是半正定矩阵, 只需证明对任意 $n$ 维向量 $\neq 0$ 都有 $v^TMv \geqslant 0$

$v^TMv = v^T(I-W)^T(I-W)v = [(I-W)v]^T[(I-W)v] = \|(I-W)v\|_2^2 \geqslant 0$
$v^TXv = (L^Tv)^TD(L^Tv)v$
综上所述, 对任意 $n$ 维向量 $\neq 0$ 都有 $v^TMv \geqslant 0$ , 即 $M$ 是半正定矩阵.

e.2 $M$ 的特征向量 $1$

注意 $w_i1=1$ , 所以 $W 1 = 1$ .
(注意 $\vec w_i \vec 1 = 1$ , 所以 $\boldsymbol W \vec 1 = \vec 1$ .)

$\begin{aligned} M1 &= (I-W-W^T+W^TW)1 \\ &= I1-W1-W^T1+W^TW1 \\ &= 1-1-W^T1+W^T1 \\ &= 0 \\ \end{aligned}$

注意 $M 1 = 01$ , 所以 $M$ 的特征值 $0$ 有一个特征向量是 $1$ .
(注意 $\boldsymbol M \vec 1 = 0 \cdot \vec 1$ , 所以 $\boldsymbol M$ 的特征值 $0$ 有一个特征向量是 $\vec 1$ .)

f 实际求解过程中, 对 $M$ 特征值分解, 特征值升序排列, 去除最小特征值的特征向量 $\xi_1$ , $Y^T=[y_1 \dots y_n]^T = [\xi_2 \dots \xi_{d'+1}]$ 就是最终的低维表示.

f.1 舍弃 $\xi_1$ , 实际上是舍弃 $1$

由于 $M$ 是半正定矩阵, 所以 $M$ 的特征值及其特征向量
$\begin{aligned} 0 \leqslant \sigma_1 \leqslant \sigma_2 \leqslant \dots \leqslant \sigma_n \\ \phantom{0 \leqslant} \xi_1 \phantom{\leqslant} \xi_2 \phantom{\leqslant} \dots \phantom{\leqslant} \xi_n \\ \end{aligned}$
又 $M$ 具有特征值 $0$ 及其特征向量是 $1$ , 所以 $M$ 的特征值及其特征向量
$\begin{aligned} 0 = \sigma_1 \leqslant \sigma_2 \leqslant \dots \leqslant \sigma_n \\ \phantom{0 =} 1 \phantom{\leqslant} \xi_2 \phantom{\leqslant} \dots \phantom{\leqslant} \xi_n \\ \end{aligned}$

f.2 舍弃 $1$ 的原因

从直观的角度, 每个 $y_i$ 的这个分量都是1, 因此这个分量不包含任何信息, 所以舍弃.
从优化的角度, 舍弃 $1$ 能确保约束条件 $\sum\limits_{i=1}^n y_i=0$ .
- 如果不舍弃 $1$ , 由于每个 $y_i$ 的这个分量都是1, 所以 $\left(\sum\limits_{i=1}^n y_i\right)$ 的这个分量都是 $n$ , 不等于0.
- 如果舍弃 $1$ , 由于 $M$ 矩阵是规正矩阵(实对称矩阵/Hermitian矩阵是规正矩阵的子集), 所以 $M$ 矩阵的特征向量相互正交.
  首先注意到 $Y^T=[y_1 \dots y_n]^T = [\xi_2 \dots \xi_{d'+1}]$
  然后注意到 $\xi_1^T\xi_i=0, i \neq 1$
  即 $\xi_1^T[\xi_2 \dots \xi_{d'+1}]=0$
  即 $1^T[\xi_2 \dots \xi_{d'+1}]=0$
  即 $1^T[\xi_2 \dots \xi_{d'+1}]=0$
  即 $1^TY^T=0$
  即 $Y 1 = 0$
  即 $\sum\limits_{i=1}^n y_i=0$

「已注销」

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
LLE 证明

a LLE 权重求解xi∈Rd×1x_i \in \mathbb{R}^{d \times 1}xi∈Rd×1, wi∈R1×nw_i \in \mathbb{R}^{1 \times n}wi∈R1×n, X=[x1…xn]X = [x_1 \dots x_n]X=[x1…xn], wi=[wi1…win]w_i = [w_{i1} \dots w_{in}]wi=[wi1…win].min⁡wi∑i=1n∥xi−∑j=1nwijxj∥22s.t.∑j=1nwij=1\begin.
复制链接

扫一扫