主要思想
LLE将
D
D
D维特征
X
=
[
x
1
,
x
2
,
⋯
,
x
N
]
∈
R
D
×
N
\mathbf{X}=[\mathbf{x}_1, \mathbf{x}_2, \cdots, \mathbf{x}_N]\in\mathbb{R}^{D\times N}
X=[x1,x2,⋯,xN]∈RD×N(
x
i
∈
R
D
\mathbf{x}_i\in\mathbb{R}^{D}
xi∈RD)映射到
d
(
d
≪
D
)
d(d\ll D)
d(d≪D)维空间中(
Y
=
[
y
1
,
y
2
,
⋯
,
y
N
]
∈
R
d
×
N
\mathbf{Y}=[\mathbf{y}_1, \mathbf{y}_2, \cdots, \mathbf{y}_N]\in\mathbb{R}^{d\times N}
Y=[y1,y2,⋯,yN]∈Rd×N),在原始空间
X
\mathbf{X}
X中的点有着局部线性保持的特性,即
x
i
=
∑
j
∈
N
(
i
)
w
j
x
j
\mathbf{x}_i=\sum_{j\in\mathcal{N}(i)}{w_{j}\mathbf{x}_j}
xi=j∈N(i)∑wjxj
其中
N
(
i
)
\mathcal{N}(i)
N(i)表示在原始空间
X
\mathbf{X}
X中
x
i
\mathbf{x}_i
xi的附近的点,相应的权重为
w
j
w_j
wj,LLE希望在降维后的空间
Y
\mathbf{Y}
Y中对应的点也有这样的保持关系
y
i
=
∑
j
∈
N
(
i
)
w
j
y
j
\mathbf{y}_i=\sum_{j\in\mathcal{N}(i)}{w_{j}\mathbf{y}_j}
yi=j∈N(i)∑wjyj
所以整个求解思路为:
(1)先求解
w
w
w;
(2)求解降维后的
Y
\mathbf{Y}
Y。
推导方法
假设已经在原始空间
X
\mathbf{X}
X中构造好了邻近关系
N
(
⋅
)
\mathcal{N}(\cdot)
N(⋅),那么求解
W
=
[
w
1
,
⋯
,
w
N
]
∈
R
N
×
N
\mathbf{W}=[\mathbf{w}_1,\cdots,\mathbf{w}_N]\in\mathbb{R}^{N\times N}
W=[w1,⋯,wN]∈RN×N(
w
i
,
j
=
0
,
i
f
j
∉
N
(
i
)
\mathbf{w}_{i,j}=0, if j\notin\mathcal{N}(i)
wi,j=0,ifj∈/N(i))的优化目标为
arg min
W
∑
i
=
1
N
∥
x
i
−
∑
j
∈
N
(
i
)
w
i
,
j
x
j
∥
2
\argmin\limits_{\mathbf{W}}\ \sum_{i=1}^N\left\|\mathbf{x}_i-\sum_{j\in\mathcal{N}(i)}\mathbf{w}_{i,j}\mathbf{x}_j\right\|^2
Wargmin i=1∑N∥
∥xi−j∈N(i)∑wi,jxj∥
∥2
一般来说,希望权重和为1,则对
∀
i
\forall i
∀i有
∑
j
∈
N
(
i
)
w
i
,
j
=
1
\sum_{j\in\mathcal{N}(i)}\mathbf{w}_{i,j}=1
∑j∈N(i)wi,j=1,则上述优化问题可进一步简化
arg min
W
∑
i
=
1
N
∥
∑
j
∈
N
(
i
)
w
i
,
j
x
i
−
∑
j
∈
N
(
i
)
w
i
,
j
x
j
∥
2
arg min
W
∑
i
=
1
N
∥
∑
j
∈
N
(
i
)
w
i
,
j
(
x
i
−
x
j
)
∥
2
arg min
w
~
1
,
w
~
2
,
⋯
,
w
~
N
∑
i
=
1
N
w
~
i
T
X
~
i
T
X
~
i
w
~
i
(
X
~
i
=
[
x
i
−
x
j
∣
j
∈
N
(
i
)
]
∈
R
D
×
∣
N
(
i
)
∣
,
w
~
i
∈
R
∣
N
(
i
)
∣
×
1
)
\begin{aligned} \argmin\limits_{\mathbf{W}}\ &\sum_{i=1}^N\left\|\sum_{j\in\mathcal{N}(i)}\mathbf{w}_{i,j}\mathbf{x}_i-\sum_{j\in\mathcal{N}(i)}\mathbf{w}_{i,j}\mathbf{x}_j\right\|^2\\ \argmin\limits_{\mathbf{W}}\ &\sum_{i=1}^N\left\|\sum_{j\in\mathcal{N}(i)}\mathbf{w}_{i,j}\left(\mathbf{x}_i-\mathbf{x}_j\right)\right\|^2\\ \argmin\limits_{\widetilde{\mathbf{w}}_1,\widetilde{\mathbf{w}}_2,\cdots,\widetilde{\mathbf{w}}_N}\ &\sum_{i=1}^N{\widetilde{\mathbf{w}}_i^T\widetilde{\mathbf{X}}_i^T\widetilde{\mathbf{X}}_i\widetilde{\mathbf{w}}_i}\ {\color{blue} (\widetilde{\mathbf{X}}_i=\left[\mathbf{x}_i-\mathbf{x}_j|j\in\mathcal{N}(i)\right]\in\mathbb{R}^{D\times|\mathcal{N}(i)|},\ \widetilde{\mathbf{w}}_i\in\mathbb{R}^{|\mathcal{N}(i)|\times 1})}\\ \end{aligned}
Wargmin Wargmin w
1,w
2,⋯,w
Nargmin i=1∑N∥
∥j∈N(i)∑wi,jxi−j∈N(i)∑wi,jxj∥
∥2i=1∑N∥
∥j∈N(i)∑wi,j(xi−xj)∥
∥2i=1∑Nw
iTX
iTX
iw
i (X
i=[xi−xj∣j∈N(i)]∈RD×∣N(i)∣, w
i∈R∣N(i)∣×1)
正如前所述,还有约束条件
∀
i
∈
{
1
,
2
,
⋯
,
N
}
\forall i\in\{1,2,\cdots,N\}
∀i∈{1,2,⋯,N},
w
~
i
T
1
∣
N
(
i
)
∣
×
1
=
1
\widetilde{\mathbf{w}}_i^T1_{|\mathcal{N}(i)|\times 1}=1
w
iT1∣N(i)∣×1=1,所以最终优化问题为:
arg min
w
~
1
,
w
~
2
,
⋯
,
w
~
N
∑
i
=
1
N
w
~
i
T
X
~
i
T
X
~
i
w
~
i
s
.
t
.
w
~
i
T
1
∣
N
(
i
)
∣
×
1
=
1
,
i
∈
{
1
,
2
,
⋯
,
N
}
\begin{aligned} \argmin\limits_{\widetilde{\mathbf{w}}_1,\widetilde{\mathbf{w}}_2,\cdots,\widetilde{\mathbf{w}}_N}\ &\sum_{i=1}^N{\widetilde{\mathbf{w}}_i^T\widetilde{\mathbf{X}}_i^T\widetilde{\mathbf{X}}_i\widetilde{\mathbf{w}}_i}\\ s.t.\ &\widetilde{\mathbf{w}}_i^T1_{|\mathcal{N}(i)|\times 1}=1,\ i\in\{1,2,\cdots,N\} \end{aligned}
w
1,w
2,⋯,w
Nargmin s.t. i=1∑Nw
iTX
iTX
iw
iw
iT1∣N(i)∣×1=1, i∈{1,2,⋯,N}
引入拉格朗日乘子
λ
i
,
i
∈
{
1
,
2
,
⋯
,
N
}
\lambda_i,\ i\in\{1,2,\cdots,N\}
λi, i∈{1,2,⋯,N}
L
(
w
~
1
,
w
~
2
,
⋯
,
w
~
N
,
λ
)
=
∑
i
=
1
N
w
~
i
T
X
~
i
T
X
~
i
w
~
i
+
∑
i
=
1
N
λ
i
(
w
~
i
T
1
∣
N
(
i
)
∣
×
1
−
1
)
∂
L
(
w
~
1
,
w
~
2
,
⋯
,
w
~
N
,
λ
)
/
∂
w
~
i
=
2
X
i
~
T
X
i
~
w
~
i
+
λ
i
1
∣
N
(
i
)
∣
×
1
=
0
w
~
i
=
−
1
2
λ
i
(
X
i
~
T
X
i
~
)
−
1
1
∣
N
(
i
)
∣
×
1
\begin{aligned} L(\widetilde{\mathbf{w}}_1,\widetilde{\mathbf{w}}_2,\cdots,\widetilde{\mathbf{w}}_N,\lambda)&=\sum_{i=1}^N{\widetilde{\mathbf{w}}_i^T\widetilde{\mathbf{X}}_i^T\widetilde{\mathbf{X}}_i\widetilde{\mathbf{w}}_i}+\sum_{i=1}^N{\lambda_i(\widetilde{\mathbf{w}}_i^T1_{|\mathcal{N}(i)|\times 1}-1)}\\ \partial L(\widetilde{\mathbf{w}}_1,\widetilde{\mathbf{w}}_2,\cdots,\widetilde{\mathbf{w}}_N,\lambda)/\partial \widetilde{\mathbf{w}}_i&=2\widetilde{\mathbf{X}_i}^T\widetilde{\mathbf{X}_i}\widetilde{\mathbf{w}}_i+\lambda_i1_{|\mathcal{N}(i)|\times 1}=0\\ &\widetilde{\mathbf{w}}_i=-\frac12\lambda_i(\widetilde{\mathbf{X}_i}^T\widetilde{\mathbf{X}_i})^{-1}1_{|\mathcal{N}(i)|\times 1}\\ \end{aligned}
L(w
1,w
2,⋯,w
N,λ)∂L(w
1,w
2,⋯,w
N,λ)/∂w
i=i=1∑Nw
iTX
iTX
iw
i+i=1∑Nλi(w
iT1∣N(i)∣×1−1)=2Xi
TXi
w
i+λi1∣N(i)∣×1=0w
i=−21λi(Xi
TXi
)−11∣N(i)∣×1
再根据
w
~
i
T
1
∣
N
(
i
)
∣
×
1
=
1
\widetilde{\mathbf{w}}_i^T1_{|\mathcal{N}(i)|\times 1}=1
w
iT1∣N(i)∣×1=1的约束,归一化之后可得
w
~
i
=
(
X
~
T
X
~
i
)
−
1
1
∣
N
(
i
)
∣
×
1
1
1
×
∣
N
(
i
)
∣
(
X
~
T
X
~
i
)
−
1
1
∣
N
(
i
)
∣
×
1
\widetilde{\mathbf{w}}_i=\frac{(\widetilde{\mathbf{X}}^T\widetilde{\mathbf{X}}_i)^{-1}1_{|\mathcal{N} (i)|\times 1}}{1_{1\times |\mathcal{N} (i)|}(\widetilde{\mathbf{X}}^T\widetilde{\mathbf{X}}_i)^{-1}1_{|\mathcal{N} (i)|\times 1}}
w
i=11×∣N(i)∣(X
TX
i)−11∣N(i)∣×1(X
TX
i)−11∣N(i)∣×1
根据所得结果可以还原
W
∈
R
N
×
N
\mathbf{W}\in\mathbb{R}^{N\times N}
W∈RN×N。下面给出求解
Y
\mathbf{Y}
Y的优化问题:
arg min
Y
∑
i
=
1
N
(
y
i
−
Y
w
i
)
T
(
y
i
−
Y
w
i
)
arg min
Y
∑
i
=
1
N
(
y
i
T
y
i
+
w
i
T
Y
T
Y
w
i
−
y
i
T
Y
w
i
−
w
i
T
Y
T
y
i
)
arg min
Y
t
r
a
c
e
(
Y
T
Y
)
+
t
r
a
c
e
(
W
T
Y
T
Y
W
)
−
t
r
a
c
e
(
Y
T
Y
W
)
−
t
r
a
c
e
(
W
T
Y
T
Y
)
arg min
Y
t
r
a
c
e
(
Y
Y
T
)
+
t
r
a
c
e
(
Y
W
W
T
Y
T
)
−
t
r
a
c
e
(
Y
W
Y
T
)
−
t
r
a
c
e
(
Y
W
T
Y
T
)
arg min
Y
t
r
a
c
e
(
Y
(
I
+
W
W
T
−
W
−
W
T
)
Y
T
)
arg min
Y
t
r
a
c
e
(
Y
Y
T
)
+
t
r
a
c
e
(
Y
W
W
T
Y
T
)
−
t
r
a
c
e
(
Y
W
Y
T
)
−
t
r
a
c
e
(
Y
W
T
Y
T
)
arg min
Y
t
r
a
c
e
(
Y
(
I
−
W
)
(
I
−
W
)
T
Y
T
)
\begin{aligned} \argmin\limits_{\mathbf{Y}}\ &\sum_{i=1}^N{\left(\mathbf{y}_i-\mathbf{Y}\mathbf{w}_i\right)^T\left(\mathbf{y}_i-\mathbf{Y}\mathbf{w}_i\right)}\\ \argmin\limits_{\mathbf{Y}}\ &\sum_{i=1}^N{\left(\mathbf{y}_i^T\mathbf{y}_i+\mathbf{w}_i^T\mathbf{Y}^T\mathbf{Y}\mathbf{w}_i-\mathbf{y}_i^T\mathbf{Y}\mathbf{w}_i-\mathbf{w}_i^T\mathbf{Y}^T\mathbf{y}_i\right)}\\ \argmin\limits_{\mathbf{Y}}\ &trace(\mathbf{Y}^T\mathbf{Y})+trace(\mathbf{W}^T\mathbf{Y}^T\mathbf{Y}\mathbf{W})-trace(\mathbf{Y}^T\mathbf{Y}\mathbf{W})-trace(\mathbf{W}^T\mathbf{Y}^T\mathbf{Y})\\ \argmin\limits_{\mathbf{Y}}\ &trace(\mathbf{Y}\mathbf{Y}^T)+trace(\mathbf{Y}\mathbf{W}\mathbf{W}^T\mathbf{Y}^T)-trace(\mathbf{Y}\mathbf{W}\mathbf{Y}^T)-trace(\mathbf{Y}\mathbf{W}^T\mathbf{Y}^T)\\ \argmin\limits_{\mathbf{Y}}\ &trace(\mathbf{Y}(\mathbb{I}+\mathbf{W}\mathbf{W}^T-\mathbf{W}-\mathbf{W}^T)\mathbf{Y}^T)\\ \argmin\limits_{\mathbf{Y}}\ &trace(\mathbf{Y}\mathbf{Y}^T)+trace(\mathbf{Y}\mathbf{W}\mathbf{W}^T\mathbf{Y}^T)-trace(\mathbf{Y}\mathbf{W}\mathbf{Y}^T)-trace(\mathbf{Y}\mathbf{W}^T\mathbf{Y}^T)\\ \argmin\limits_{\mathbf{Y}}\ &trace(\mathbf{Y}(\mathbb{I}-\mathbf{W})(\mathbb{I}-\mathbf{W})^T\mathbf{Y}^T)\\ \end{aligned}
Yargmin Yargmin Yargmin Yargmin Yargmin Yargmin Yargmin i=1∑N(yi−Ywi)T(yi−Ywi)i=1∑N(yiTyi+wiTYTYwi−yiTYwi−wiTYTyi)trace(YTY)+trace(WTYTYW)−trace(YTYW)−trace(WTYTY)trace(YYT)+trace(YWWTYT)−trace(YWYT)−trace(YWTYT)trace(Y(I+WWT−W−WT)YT)trace(YYT)+trace(YWWTYT)−trace(YWYT)−trace(YWTYT)trace(Y(I−W)(I−W)TYT)
为了防止维度的退化且消除尺度大小的影响,引入约束
Y
Y
T
=
I
\mathbf{Y}\mathbf{Y}^T=\mathbb{I}
YYT=I,所以最终的优化问题为:
{
arg min
Y
t
r
a
c
e
(
Y
(
I
−
W
)
(
I
−
W
)
T
Y
T
)
s
.
t
.
Y
Y
T
=
I
\begin{cases} \argmin\limits_{\mathbf{Y}} \,\,trace(\mathbf{Y}(\mathbb{I} -\mathbf{W})(\mathbb{I} -\mathbf{W})^T\mathbf{Y}^T)\\ s.t. \mathbf{YY}^T=\mathbb{I}\\ \end{cases}
⎩
⎨
⎧Yargmintrace(Y(I−W)(I−W)TYT)s.t.YYT=I
由上可知,最优值
Y
\mathbf{Y}
Y为矩阵
(
I
−
W
)
(
I
−
W
)
T
(\mathbb{I} -\mathbf{W})(\mathbb{I} -\mathbf{W})^T
(I−W)(I−W)T所对应的最小
d
d
d个特征值对应的特征向量的转置!
而 ( I − W ) 1 N × 1 = 0 (\mathbb{I} -\mathbf{W})1_{N\times 1}=0 (I−W)1N×1=0,则说明 ( I − W ) ( I − W ) T (\mathbb{I} -\mathbf{W})(\mathbb{I} -\mathbf{W})^T (I−W)(I−W)T有最小特征值为0的全1特征向量。因此,从倒数第二小的特征值对应的特征向量开始取。