线性判别分析(Linear Discriminant Analysis)

线性判别分析(LDA)是一种监督学习降维技术,源于Fisher的线性判别准则。它通过最大化组间散布与组内散布的比值来寻找最佳分类方向。LDA不仅降低数据维度,还能利用类别信息。当K>2且q>1时,可以有多个不相关的判别变量,帮助分类。在实际案例中,如Vowel数据集,前几个判别变量能有效区分类别中心。
摘要由CSDN通过智能技术生成

动机


线性判别分析(Linear Discriminant Analysis)又叫Fisher线性判别分析, 由Fisher1936年提出. 很多书把线性判别分析作为一种高斯分类器讲起, 但线性判别分析之所以流行还是因为它可以作为一种非常有效的降维技术. PCA也是一种常用的降维技术, 但它和线性判别分析完全不同. 线性判别分析属于监督学习范畴, 它是一个矩阵优化问题, 这个矩阵反映的是样本的变异信息. 后面我们会给出线性判别分析的解析解.

基本概念


假设 x=(x1,x2,...,xp)T 为一个 p 维观测样本, 通过线性变换

y=w1x1+w2x2+...+wpxp=wTx

我们可以把 x 投影到标量 y 上, 这里 w=(w1,w2,...,wp)TRp . 同样我们还可以把多元变量 x 投影到 q 维空间
y=(y1,y2,...,yq)T

这里

yj=w1jx1+w2jx2++wpj=wTjx,    j=1,2,...,q

写成矩阵形式,
y=WTx,

这里 W=(wij) 是一个 p×q 矩阵.

后面我们会把 y 称作判别变量 w 称作判别坐标.

样本


继续使用上面的记法, 假设我们的样本分为 K 分组(分类), 其中每组样本数为 nk , k=1,2,...,K . 对于第 k 组样本,

(x(k)1,x(k)2,,x(k)nk)=x(k)11x(k)21x(k)p1x(k)12x(k)22x(k)p2x(k)1nkx(k)2nkx(k)pnk,

上面矩阵的第 j x(k)j , 表示第 j 个观测样本. 总样本量 n=Kk=1nk .
这样的话, 我们就可以定义第 k 组样本的样本均值为
μ(k)=(μ1(k),μ2(k),...,μp(k))T=1nkj=1nkx(k)i

有了样本均值, 我们就可以定义散布矩阵 Sk 表示第 k 组样本的分散程度,
Sk=i=1nk(x(k)iμ(k))(x(k)iμ(k))T

这里 Sk 反映的第 k 个分组的组内变化情况. 如果样本比较接近, Sk 的元素就比较小; 反之, 样本比较分散, Sk 的元素就比较大.
对于所有的 K 个分组, 我们定义 组内散布矩阵为,
SW=k=1Ki=1nk(x(k)iμ(k))(x(k)iμ(k))T

容易看出, 组内散布矩阵刻画的是样本组内变异程度.
可以类似的定义 组间散布矩阵. 如果用 μ=1nKk=1nkμ(k) 表示所有样本的均值, 则组间散布矩阵可以写为

SB=k=1Knk(μ(k)μ)(μ(k)μ)T

组间散布矩阵刻画的是组间变异程度. 当各组样本均值, 即样本中心点距离比较远时, 组间散布矩阵比较大.
同样, 我们定义 总散布矩阵
ST=k=1Ki=1nk(x(k)iμ)(x(k)iμ)T

容易证明 ST=SB+S
  • 2
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值