在变换推导过程中,有一步说明“令 S b w = λ ( μ 0 − μ 1 ) S_b w = \lambda (\mu_0 - \mu_1) Sbw=λ(μ0−μ1)”,这是在从广义特征值问题 S b w = λ S w w S_b w = \lambda S_w w Sbw=λSww 推导公式的过程中出现的。这一步可以写成这样的原因与类间散度矩阵 S b S_b Sb 的定义和矩阵的性质有关。
背景:
在之前的推导中,类间散度矩阵
S
b
S_b
Sb 被定义为:
S
b
=
(
μ
0
−
μ
1
)
(
μ
0
−
μ
1
)
T
S_b = (\mu_0 - \mu_1)(\mu_0 - \mu_1)^T
Sb=(μ0−μ1)(μ0−μ1)T
其中:
- μ 0 \mu_0 μ0 和 μ 1 \mu_1 μ1 是两类的均值向量。
- 这个矩阵 S b S_b Sb 的定义是基于两个类的均值差的外积,这个定义表示了类间的差异。
推导步骤:
-
广义特征值问题:
在广义特征值问题中,我们有:
S b w = λ S w w S_b w = \lambda S_w w Sbw=λSww -
类间散度矩阵的代入:
将 S b = ( μ 0 − μ 1 ) ( μ 0 − μ 1 ) T S_b = (\mu_0 - \mu_1)(\mu_0 - \mu_1)^T Sb=(μ0−μ1)(μ0−μ1)T 代入到方程中:
( μ 0 − μ 1 ) ( μ 0 − μ 1 ) T w = λ S w w (\mu_0 - \mu_1)(\mu_0 - \mu_1)^T w = \lambda S_w w (μ0−μ1)(μ0−μ1)Tw=λSww -
简化右侧:
我们接下来要简化方程左侧。假设投影向量 w w w 与均值差 μ 0 − μ 1 \mu_0 - \mu_1 μ0−μ1 同方向,即:
w = k ( μ 0 − μ 1 ) w = k (\mu_0 - \mu_1) w=k(μ0−μ1)这表示投影向量 w w w 可以通过 μ 0 − μ 1 \mu_0 - \mu_1 μ0−μ1 来表示,因为最优的投影方向应该在类间差异的方向上。因此, ( μ 0 − μ 1 ) T w (\mu_0 - \mu_1)^T w (μ0−μ1)Tw 是一个标量,可以写为 k k k,于是左侧的矩阵乘法简化为:
( μ 0 − μ 1 ) ( μ 0 − μ 1 ) T w = ( μ 0 − μ 1 ) k (\mu_0 - \mu_1)(\mu_0 - \mu_1)^T w = (\mu_0 - \mu_1) k (μ0−μ1)(μ0−μ1)Tw=(μ0−μ1)k -
得到形式 S b w = λ ( μ 0 − μ 1 ) S_b w = \lambda (\mu_0 - \mu_1) Sbw=λ(μ0−μ1):
通过假设 w w w 和 μ 0 − μ 1 \mu_0 - \mu_1 μ0−μ1 同方向,我们可以将等式的右侧简化为 λ ( μ 0 − μ 1 ) \lambda (\mu_0 - \mu_1) λ(μ0−μ1),因此得到:
S b w = λ ( μ 0 − μ 1 ) S_b w = \lambda (\mu_0 - \mu_1) Sbw=λ(μ0−μ1)
为什么可以这么写:
-
类间散度矩阵的性质:
类间散度矩阵 S b S_b Sb 是由均值差向量 μ 0 − μ 1 \mu_0 - \mu_1 μ0−μ1 构成的矩阵。这意味着,当 w w w 在均值差方向上时(即 w w w 是 μ 0 − μ 1 \mu_0 - \mu_1 μ0−μ1 的线性组合),矩阵乘法 S b w S_b w Sbw 的结果仍然是均值差向量的倍数,因此我们可以写成 λ ( μ 0 − μ 1 ) \lambda (\mu_0 - \mu_1) λ(μ0−μ1)。 -
投影方向的假设:
在 LDA 的推导过程中,最优投影方向 w w w 通常是在类间均值差的方向上。这是因为类间均值差的方向是最能够区分两个类的方向,因此我们假设 w w w 和 μ 0 − μ 1 \mu_0 - \mu_1 μ0−μ1 同方向,可以让问题变得更加简单,最终得到形式为 S b w = λ ( μ 0 − μ 1 ) S_b w = \lambda (\mu_0 - \mu_1) Sbw=λ(μ0−μ1)。 -
外积矩阵的作用:
类间散度矩阵 S b = ( μ 0 − μ 1 ) ( μ 0 − μ 1 ) T S_b = (\mu_0 - \mu_1)(\mu_0 - \mu_1)^T Sb=(μ0−μ1)(μ0−μ1)T 是一个外积矩阵,这个矩阵的作用是将任意向量投影到均值差向量 μ 0 − μ 1 \mu_0 - \mu_1 μ0−μ1 的方向上。因此,当 w w w 与 μ 0 − μ 1 \mu_0 - \mu_1 μ0−μ1 同方向时,矩阵乘法的结果就会是 ( μ 0 − μ 1 ) (\mu_0 - \mu_1) (μ0−μ1) 的倍数。
总结:
公式 S b w = λ ( μ 0 − μ 1 ) S_b w = \lambda (\mu_0 - \mu_1) Sbw=λ(μ0−μ1) 是基于类间散度矩阵 S b S_b Sb 的定义和 w w w 与均值差 μ 0 − μ 1 \mu_0 - \mu_1 μ0−μ1 同方向的假设得到的。类间散度矩阵反映的是均值差的方向,因此当投影向量 w w w 沿着均值差方向时,矩阵 S b S_b Sb 的作用就是将 w w w 转化为均值差向量的倍数。