主成分分析和判别函数

本文介绍了主成分分析(PCA)的概念,包括寻找样本均值和最佳直线的方法,以及散布矩阵和平方判决函数。接着,讨论了Fisher线性判别分析(LDA),用于寻找有效分类方向,最大化类别间距离并最小化类内距离。最后,简述了多重判别分析,用于处理多类别问题。
摘要由CSDN通过智能技术生成

主成分分析和判别函数

标签: 模式分类

@author lancelot-vim


主成分分析

考虑n个d维的样本 x1,x2...xn ,如何使用一个d维的向量 x0 ,来代表这n个样本,确切说,我们希望这n个样本和它的代表 x0 之间的距离的和越小越好,特别的,使用欧几里得距离来定义误差函数 J0(x0) : J0(x0)=nk=1||x0xk||2

我们的目标是寻找 x0 ,使得 J0 最小,很容易可以得到: x0=1nnk=1xk

实际上,样本均值是样本数据集的零维表达,它表达了样本之间的相似,但不能表达样本的差异性。过样本均值做一条直线,并将所有的样本向这条直线上做投影,那么我们能得到代表所有样本的一维向量,若 e⃗  表示这条直线的单位向量,那么直线方程为 x⃗ =m⃗ +ae⃗  ,其中 m⃗  代表样本均值
其中 a 是一个实数,表示某点离开 m 的距离,我们用 m=ake 来表示 xk ,可得:
J1(a1,a2...an,e)=nk=1||(m+ake)xk||2=nk=1a2k||e||22nk=1akeT(xkm)+nk=1||xkm||2
由于 ||e||=1 ,通过对 ak 求偏导,令结果为0有: ak=eT(xkm) ,直观上表示为点到直线的距离


这就引出一个问题,什么方向的直线才是最好的直线,对此定义”散布矩阵”(scatter matrix)

S=k=1n(xkm)(xkm)T

将上式代入 J1 ,有:
J1(e)=nk=1a2k2nk=1a2k+nk=1||xkm||2  =nk=1

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值