简述LDA,PCA,SVD原理推导及其简单应用

最新推荐文章于 2022-10-17 18:38:09 发布

mlee1018

最新推荐文章于 2022-10-17 18:38:09 发布

阅读量834

点赞数 1

分类专栏： ML 文章标签：线性判别分析主成分分析奇异值分解

本文链接：https://blog.csdn.net/Recall_Tomorrow/article/details/79408355

版权

ML 专栏收录该内容

15 篇文章 1 订阅

订阅专栏

线性判别分析(Linear Discriminant Analysis)

$\ \ \ \$ 对于给定的标记数据 $(x_i, c_i), 其中x_i\in \mathcal{R^n},c_i\in \{0, 1\}$ ，此时设计一个分类器(Classifier)，将这两类数据分开，另外这两类数据线性可分(存在一个超平面 $\mathcal{\Sigma_1}$ ，将这两类数据分开，也就是说存在一个与超平面垂直的超平面 $\mathcal{\Sigma_2}$ ，使所有的数据投影(Projection)到它上面，并且同样可分)，如下图所示：
线性判别分析
假定 $\mathcal{\Sigma_2}表示为w$ ，则将数据 $X$ 投影到 $n-1$ 维超平面上，为可视化，我们设为1维，即

y i = w T x i

$y_i=w^Tx_i$ 那么我们可以找到阈值

y0 $y_0$ ，当

yi≥y0 $y_i\geq y_0$ 为

C1 $C_1$ 类，否则为

C2 $C_2$ 类。

$\ \ \ \$ 我们假定

C1 $C_1$ 有数据点

N1 $N_1$ 个，

C2 $C_2$ 有

N2 $N_2$ 个，则投影后的 类内均值及 松散度(Scatter)为，

⎧ ⎩ ⎨ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ m 1 = 1 N 1 \sum i = 1 N 1 w T x i, m 2 = 1 N 2 \sum i = N 1 + 1 N 1 + N 2 w T x i ⎧ ⎩ ⎨ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ s 21 = \sum i = 1 N 1 (y i - m 1) 2, s 22 = \sum i = N 1 + 1 N 1 + N 2 (y i - m 2) 2

$\left\{ \begin{array}{lr}m_1=\frac{1}{N_1}\sum_{i=1}^{N_1}w^Tx_i,\\ m_2=\frac{1}{N_2}\sum_{i=N_1+1}^{N_1+N_2}w^Tx_i\end{array}\right. \left\{\begin{array}{lr}s_1^2=\sum_{i=1}^{N_1}(y_i-m_1)^2,\\ s_2^2=\sum_{i=N_1+1}^{N_1+N_2}(y_i-m_2)^2\end{array}\right.$

$\ \ \ \$ 那么目标函数为，

J (w) = ( m 1 - m 2 ) 2 s 2 1 + s 2 2 ⟹ J (w) = w T A 1 w w T A 2 w

$J(w)=\frac{(m_1-m_2)^2}{s_1^2+s_2^2}\Longrightarrow J(w)=\frac{w^TA_1w}{w^TA_2w}$ 其中，

⎧ ⎩ ⎨ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ A 1 = (m' 2 - m' 1) (m' 2 - m' 1) T, A 2 = \sum i = 1 N 1 (x i - m' 1) (x i - m' 1) T + \sum i = N 1 + 1 N 1 + N 2 (x i - m' 2) (x i - m' 2) T, m' 1 = 1 N 1 \sum i = 1 N 1 x i m' 2 = 1 N 2 \sum i = N 1 + 1 N 1 + N 2 x i

$\left\{\begin{array}{lr}A_1=(m_2'-m_1')(m_2'-m_1')^T,& m_1'=\frac{1}{N_1}\sum_{i=1}^{N_1}x_i\\A_2=\sum_{i=1}^{N_1}(x_i-m_1')(x_i-m_1')^T+\sum_{i=N_1+1}^{N_1+N_2}(x_i-m_2')(x_i-m_2')^T, &m_2'=\frac{1}{N_2}\sum_{i=N_{1}+1}^{N_1+N_2}x_i \end{array}\right.$ Tip:至于常量已知矩阵

A1 $A_1$ 和

A2 $A_2$ 的上式推导也比较简单，只需利用

m1=wTm′1 $m_1=w^Tm_1'$ 及

m2=wTm′2 $m_2=w^Tm_2'$ 即可
记下来的任务就是求取

w $w$ ，即，

\partial J ( w ) \partial w = \partial \partial w (w T A 1 w w T A 2 w) = 0 ⟹ A 1 w (w T A 2 w) = A 2 w (w T A 1 w)

$\frac{\partial J(w)}{\partial w}=\frac{\partial}{\partial w}(\frac{w^TA_1w}{w^TA_2w})=0\Longrightarrow A_1w(w^TA_2w)=A_2w(w^TA_1w)$

说明只需A1w与A2w同向即可，又A1w=(m′2−m′1)(m′2−m′1)Tw≡λ(m′2−m′1),即只需w与A−12(m′2−m′1)同向即可 $说明只需A_1w与A_2w同向即可，又A_1w=(m_2'-m_1')(m_2'-m_1')^Tw\equiv\lambda(m_2'-m_1'),即只需w与A_2^{-1}(m_2'-m_1')同向即可$

主成分分析(Principal Component Analysis)

要点就是使样本点在某个方向上的投影具有最大方差，如下图所示，
主成分分析
对于具有n个特征的m个样本，可以得到一个样本集矩阵，

A = ⎛ ⎝ ⎜ ⎜ ⎜ ⎜ ⎜ a 11 a 12 \dots a 1 n a 21 a 22 \dots a 2 n ⋮ ⋮ ⋱ ⋮ a m 1 a m 2 \dots a m n ⎞ ⎠ ⎟ ⎟ ⎟ ⎟ ⎟ = ⎛ ⎝ ⎜ ⎜ ⎜ ⎜ ⎜ a T 1 a T 2 ⋮ a T m ⎞ ⎠ ⎟ ⎟ ⎟ ⎟ ⎟

$A=\left( \begin{array}{lr}a_{11}\ \ a_{12}\ \ \cdots\ \ a_{1n}\\ a_{21}\ \ a_{22}\ \ \cdots\ \ a_{2n}\\ \ \ \vdots\ \ \ \ \ \ \ \vdots\ \ \ \ \ddots\ \ \ \vdots\\ a_{m1}\ \ a_{m2}\ \ \cdots\ \ a_{mn}\end{array}\right)=\left( \begin{array}{lr}a_{1}^T\\a_{2}^T\\\ \ \vdots\\ a_{m}^T\end{array}\right)\ \ \ \ \ \$
寻找样本集的 主方向

u $u$ ，将样本集投影到某个方向上，以此计算出

m $m$ 个投影点的方差，并认为 方差最大的方向就为主方向。我们假定样本集是 去均值化的，则样本点集在某个方向上的投影为，

A \cdot u = ⎛ ⎝ ⎜ ⎜ ⎜ ⎜ ⎜ a 11 a 12 \dots a 1 n a 21 a 22 \dots a 2 n ⋮ ⋮ ⋱ ⋮ a m 1 a m 2 \dots a m n ⎞ ⎠ ⎟ ⎟ ⎟ ⎟ ⎟ \cdot u = ⎛ ⎝ ⎜ ⎜ ⎜ ⎜ ⎜ a T 1 a T 2 ⋮ a T m ⎞ ⎠ ⎟ ⎟ ⎟ ⎟ ⎟ \cdot u = ⎛ ⎝ ⎜ ⎜ ⎜ ⎜ ⎜ a T 1 u a T 2 u ⋮ a T m u ⎞ ⎠ ⎟ ⎟ ⎟ ⎟ ⎟

$A\cdot u=\left( \begin{array}{lr}a_{11}\ \ a_{12}\ \ \cdots\ \ a_{1n}\\ a_{21}\ \ a_{22}\ \ \cdots\ \ a_{2n}\\ \ \ \vdots\ \ \ \ \ \ \ \vdots\ \ \ \ \ddots\ \ \ \vdots\\ a_{m1}\ \ a_{m2}\ \ \cdots\ \ a_{mn}\end{array}\right)\cdot u=\left( \begin{array}{lr}a_{1}^T\\a_{2}^T\\\ \ \vdots\\ a_{m}^T\end{array}\right)\cdot u=\left(\begin{array}{lr}a_{1}^Tu\\ a_{2}^Tu\\ \ \ \ \vdots \\ a_{m}^Tu\end{array}\right)$

则 向 量 A \cdot u 的 方 差 V a r (A \cdot u) = (A u - E) T (A u - E) = (A u) T A u = u T A T A u

$则向量A\cdot u的方差Var(A\cdot u)=(Au-E)^T(Au-E)=(Au)^TAu=u^TA^TAu$ 其中，

E={1m∑mi=1aTiu}m，也就是投影点的期望组成m维列向量 $E=\{\frac{1}{m}\sum_{i=1}^{m}a_i^Tu\}^m，也就是投影点的期望组成m维列向量$
因此，目标函数为，

J (u) = u T A T A u, S u b j e c t t o : | | u | | 2 = 1

$J(u)=u^TA^TAu,\ Subject\ to :\ ||u||_2=1$ 则Lagrange function为，

L (u) = u T A T A u - λ (u T u - 1)

$L(u)=u^TA^TAu-\lambda(u^Tu-1)$

令∂L(u)∂u=0⟹(ATA)u=λu $令\frac{\partial L(u)}{\partial u}=0\Longrightarrow(A^TA)u=\lambda u$ ，我们得出方向向量 $u$ 即为方阵 $A^TA$ 的特征向量，而 $\lambda$ 即为它的特征值，也为投影点集在这个方向（特征向量）上的方差。这个过程实质上也是特征值分解（方阵）的过程，后面我们分析更加一般的矩阵分解，奇异值分解（不一定为方阵），这样我们将方阵

ATA $A^TA$ 的特征值由大到小进行排序，我们选择比较大的特征值

λi $\lambda_i$ ( 通常最大的 $10\%$ 的特征值之和就占所有特征值之和的 $99\%$ )所对应的特征向量

vi $v_i$ 作为 主成分来近似表示原始矩阵，而且这些向量之间均是线性无关的，甚至正交的，这样也就达到了降维（Dimensionality Reduction）的目的。

奇异值分解(Singular Value Decomposition)

若 $A$ 是 $m\times n$ 的矩阵，那么 $A^TA$ 就为 $n\times n$ 的方阵，那么，由 $(A^TA)v_i=\lambda_iv_i$ ，令，

⎧ ⎩ ⎨ ⎪ ⎪ δ i = λ i - - \sqrt u i = 1 δ i A v i ⟹ A = U Σ V T, 这 个 过 程 只 需 反 代 回 去 即 可 验 证

$\left\{\begin{array}{lr}\delta_i=\sqrt{\lambda_i}\\u_i=\frac{1}{\delta_i}Av_i\end{array}\right.\Longrightarrow A=U\Sigma V^T,这个过程只需反代回去即可验证$

后 者 就 为 奇 异 值 分 解 S V D 。 上 式 中 若 为 复 数 域 ， 则 为 A = U Σ V H ， U 和 V 为 酉 矩 阵 ， Σ 为 所 有 奇 异 值 组 成 的 对 角 矩 阵

$后者就为奇异值分解SVD。上式中若为复数域，则为A=U\Sigma V^H，U和V为酉矩阵，\Sigma为所有奇异值组成的对角矩阵$ 一般地，

A T A = V Σ H U H U Σ V H = V Σ H Σ V H

$A^TA=V\Sigma^HU^HU\Sigma V^H=V\Sigma^H\Sigma V^H$

A A T = U Σ V H V Σ H U H = U Σ H Σ U H

$AA^T=U\Sigma V^HV\Sigma^HU^H=U\Sigma^H\Sigma U^H$ 因此

U $U$ 的列向量

ui $u_i$ （左奇异向量）为

AAH $AA^H$ 的特征向量，

V $V$ 的列向量

vi $v_i$ （右奇异向量）为

AHA $A^HA$ 的特征向量，

Σ $\Sigma$ 的对角元为

ΣHΣ $\Sigma^H\Sigma$ 或

ΣΣH $\Sigma\Sigma^H$ 的特征值的平方根

$\ \ \ \$ 直观上，奇异值分解将矩阵分解成若干个秩一矩阵之和，即，

A = σ 1 u 1 v H 1 + σ 2 u 2 v H 2 + \dots + σ r u r v H r

$A=\sigma_1u_1v_1^H+\sigma_2u_2v_2^H+\cdots+\sigma_ru_rv_r^H$ 其中

uivHi $u_iv_i^H$ 都是秩为1的矩阵，对这些奇异值进行排序，

σ1≥σ2≥⋯≥σr>0 $\sigma_1\geq\sigma_2\geq \cdots\geq\sigma_r\gt0$ ，这样我们 选择比较大的特征值，而使较小的特征值为0(也就是舍去它们)，就可以通过这些奇异值及其对应的奇异向量还原矩阵。
当然，SVD还可用于求矩阵伪逆(M-P),数据压缩，个性化推荐等等
主要参考文献

Machine Learning:A Probabilistic Perspective,Kevin P. Murphy, The MIT Press, 2012
Prof. Andrew Ng, Machine Learning, Stanford University
Pattern Recognition and Machine Learning Chapter 10, Christopher M. Bishop, Springer-Verlag, 2006

mlee1018

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
简述LDA,PCA,SVD原理推导及其简单应用

线性判别分析(Linear Discriminant Analysis) \ \ \ \ 对于给定的标记数据(xi,ci),其中xi∈Rn,ci∈{0,1}(x_i, c_i), 其中x_i\in \mathcal{R^n},c_i\in \{0, 1\}，此时设计一个分类器(Classifier)，将这两类数据分开，另外这两类数据线性可分(存在一个超平面Σ1\mathcal{\Sigma_
复制链接

扫一扫

专栏目录