动机
线性判别分析(Linear Discriminant Analysis)又叫Fisher线性判别分析, 由Fisher1936年提出. 很多书把线性判别分析作为一种高斯分类器讲起, 但线性判别分析之所以流行还是因为它可以作为一种非常有效的降维技术. PCA也是一种常用的降维技术, 但它和线性判别分析完全不同. 线性判别分析属于监督学习范畴, 它是一个矩阵优化问题, 这个矩阵反映的是样本的变异信息. 后面我们会给出线性判别分析的解析解.
基本概念
假设 x=(x1,x2,...,xp)T 为一个 p 维观测样本, 通过线性变换
我们可以把 x 投影到标量
这里
yj=w1jx1+w2jx2+⋯+wpj=wTjx, j=1,2,...,q
写成矩阵形式,
y=WTx,
这里 W=(wij) 是一个 p×q 矩阵.
后面我们会把 y 称作判别变量把 w 称作判别坐标.
样本
继续使用上面的记法, 假设我们的样本分为 K 分组(分类), 其中每组样本数为
上面矩阵的第 j 列
这样的话, 我们就可以定义第 k 组样本的样本均值为
有了样本均值, 我们就可以定义散布矩阵 Sk 表示第 k 组样本的分散程度,
这里 Sk 反映的第 k 个分组的组内变化情况. 如果样本比较接近,
对于所有的 K 个分组, 我们定义 组内散布矩阵为,
容易看出, 组内散布矩阵刻画的是样本组内变异程度.
可以类似的定义 组间散布矩阵. 如果用 μ=1n∑Kk=1nkμ(k) 表示所有样本的均值, 则组间散布矩阵可以写为
SB=∑k=1Knk(μ(k)−μ)(μ(k)−μ)T
组间散布矩阵刻画的是组间变异程度. 当各组样本均值, 即样本中心点距离比较远时, 组间散布矩阵比较大.
同样, 我们定义 总散布矩阵为
ST=∑k=1K∑i=1nk(x(k)i−μ)(x(k)i−μ)T
容易证明 ST=SB+S