机器学习笔记(VIII)线性模型(IV)线性判别分析(LDA)

背景知识

对于一个数据集合 x=(x1,x2,,xn) ;

均值

E(x)=1ni=1nxi

方差

样本方差

s2=1n1i=1n(xix¯)2

总体方差

σ2=1ni=1n(xiμ)2

标准差

标准差反映了各个维度偏离其均值的程度

s=1n1i=1n(xix¯)2

协方差

协方差矩阵
如果有一个数据集有三个维度 {x,y,z}

Σ=COV(x,x)COV(y,x)COV(z,x)COV(x,y)COV(y,y)COV(z,y)COV(x,z)COV(y,z)COV(z,z)

COV(x,y)

COV(x,y)=1n1i=1n(xix¯)(yiy¯)

LDA(Linear Discriminant Analysis)

基本思想

给定训练样集,设法将样例投射到一条直线上,这个处理就是将样本投射到另一个空间,使得同类样本的投影点尽可能接近,异类样本点尽可能远离;在对于新样本进行分类的时候,将其投影到相同的这条直线上,在根据投影点的位置来确定新样本的类别。

离散度矩阵

给定数据集合 D={(xi,yi)}mi=1,yi{0,1}
Xi,μi,Σi 分别表示第 i{0,1} 类示例的集合、均值向量、协方差矩阵。

样本到直线的投影

将数据投影到直线 w 上(只有中心也就是均值),则两个类别样本中心在直线上的投影分别是 wTμ0 wTμ1
将所有样本都投射到直线上,则两类样本的协方差分别为 wTΣ0w wTΣ1w
直线都是一维的, wTμ0 wTμ1 wTΣ0w wTΣ1w 都是实数。

企图

我们想让同类样本在这条直线上的投影点尽可能地接近,则 wTΣ0w+wTΣ1w 要尽可能小,
同时异类的样本投影点要尽可能地远,这就要使得 ||wTμ0wTμ1||22 尽可能地大。
同时考虑两者则定义:

J=||wTμ0wTμ1||22wTΣ0w+wTΣ1w=wT(μ0μ1)(μ0μ1)TwwT(Σ0+Σ1)w

类内散度矩阵

Sw=Σ0+Σ1=wX0(wμ0)(wμ0)T+wX1(wμ1)(wμ1)T

类间散度矩阵

Sb=(μ0μ1)(μ0μ1)T

新的J

J=wTSbwwTSww

wTSww=1 这一步我没看懂为什么);
minwwTSbws.t.wTSww=1

则此时如果要确定 w
改造得到 F(w,λ)=wTSbw+λwTSww1
F(w,λ)w=Sbw+λSwwF(w,λ)w=0Sbw=λSwwSbw=(μ0μ1)(μ0μ1)Tw(μ0μ1)Tw=aSbw=a(μ0μ1)aλw=S1w(μ0μ1)

新名词

瑞利商

广义特征值

定义:设 A B n 阶方阵,如果存在实数λ,使得方程 Ax=λBx 存在非零解,则称 λ A 相对于B的广义特征值, x A 相对于B的属于广义特征值 λ 的特征向量。
1:广义特征值是标准特征值得推广,当 B=I 是,广义特征值问题退化为标准特征值问题
2:特征向量是非零的
3:广义特征值的求解

(AλB)x=0(λBA)x=0det(AλB)=0λAx=λBxx

厄米特矩阵(Hermitian Conjugate Matrix)

厄米特矩阵(Hermitian Conjugate Matrix, 又译作“埃尔米特矩阵”或“厄米矩阵”),指的是自共轭矩阵。矩阵中每一个第i 行第j 列的元素都与第j 行第i 列的元素的共轭相等
n阶复方阵A的对称单元互为共轭,即A的共轭转置矩阵等于它本身,则A是厄米特矩阵(Hermitian Matrix)。
例如:矩阵

(32i2+i1)
那么A就是一个自共轭矩阵。
显然,埃尔米特矩阵主对角线上的元素都是实数的,其特征值也是实数。对于只包含实数元素的矩阵(实矩阵),如果它是对称阵,即所有元素关于主对角线对称,那么它也是埃尔米特矩阵。也就是说,实对称矩阵是埃尔米特矩阵的特例。

到底什么是瑞利商

A B都是 n 阶厄米特矩阵,且B正定,则称 R(x)=xTAxxTBx,(x0) A 相对于B的瑞利商。
λi,xi A 相对于B的广义特征值和特征向量,且 λ1λ2λn
x1,x2,,xn 所以, xCn , a1,a2,,anC 使得 x=i=1naixi

xTBx=(i=1naixi)TB(i=1naixi)=i=1nj=1naiajxiTBxj=i=1naiaixiTBxi=i=1n|ai|2

xTAx=(i=1naixi)TA(i=1naixi)=i=1nj=1naiajxiTAxj=i=1nj=1naiajxiTλjBxj=i=1naiaixiTλiBxi=i=1nλi|ai|2

R(x)=i=1nλi|ai|2i=1n|ai|2

注:属于不同特征值的特征向量线性无关
实对称矩阵的属于不同特征值的特征向量正交
证明:
minx0R(x)=λ1maxx0R(x)=λn

前提:
λi,xi A 相对于B的广义特征值和特征向量,且 λ1λ2λn
x1,x2,,xn 线性无关,所以, xCn , a1,a2,,anC 使得 x=i=1naixi
证明:
x=x1x=i=1naixia1=1;a2an=0R(x)=λ1R(x)=i=1nλi|ai|2i=1n|ai|2i=1nλ1|ai|2i=1n|ai|2=λ1minx0R(x)=λ1x=xnan=1;a1an1=0R(x)=λnR(x)=i=1nλi|ai|2i=1n|ai|2i=1nλn|ai|2i=1n|ai|2=λnmaxx0R(x)=λn

拉格朗日乘子法

什么是拉格朗日乘子法

基本的拉格朗日乘子法就是求函数 f(x1,x2,) 在约束条件 g(x1,x2,)=0 下的极值的方法。
其主要思想是将约束条件函数与原函数联立,从而求出使原函数取得极值的各个变量的解。

一般形式和解法

对于具有 个等式约束的n维优化问题

{s.t. hk(x1,x2,,xn)minf(x1,x2,,xn)0,{i=1,2,,}

把原目标函数 f(x) 改造成为如下形式的新的目标函数
F(x,λ)=f(x)+i=1λkhk(x)

式中的 hk(x) 就是原目标函数 f(x) 的等式约束条件,而待定系数 λk 称为拉格朗日乘子。这种方法称为拉格朗日乘子法。
在极值点处,有 F(x,λ)xi=0,{i=1,2,,n} F(x,λ)λk=0,{k=1,2,,} ,共有 n+ 个方程,足以算出这 n+ 个变量,此法也称为升维法。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值