线性判别分析LDA
前言:我在我的第一家公司分析宏基因组数据时,碰到过LDA,不过当时没有去搞明白,今天有机会再来学习它。在这里,我们将了解到线性判别分析是属于一种线性分类器。
线性分类器是最简单的分类器。线性判别函数的一般表达式为 g ( x ) = w T + w 0 g(x)=w^T+w_0 g(x)=wT+w0
下面我们开始学习最直观的Fisher线性判别分析(linear discriminant analysis, LDA).
两类的线性判别问题可以看作是把所有样本都投影到一个方向上,然后在这个一维空间中确定一个分类的阈值。过这个阈值点且与投影方向垂直的超平面就是两类的分界面。
关键问题在于如何确定投影方向。Fisher线性判别的思想是,选择投影方向,使投影后两类相隔尽可能远,而同时每一类内部的样本又尽可能聚焦。这一目标可以表示成如下的准则
m a x J F ( w ) = S b S w = ( m 1 − m 2 ) 2 S 1 2 + S 2 2 max J_F(w)=\frac{S_b}{S_w}=\frac{(m_1-m_2)^2}{S_1^2+S_2^2}