【数据挖掘】作业一

数据挖掘 作业一

151220129 计科 吴政亿 nju_wzy@163.com

题目简述

LDA与NCA是两种常用的降维方法,请将二者与PCA对比并回答他们对数据降维的基本原理

基本原理

LDA

LDA的原理是将带上标签的数据(点),通过投影的方法,投影到维度更低的空间中,使得投影后的点,会形成按类别区分,一簇一簇的情况,相同类别的点,将会在投影后的空间中更接近。
LDA最求的目标是,给出一个标注了类别的数据集,投影到了一条直线之后,能够使得点尽量的按类别区分开。假设用来区分二分类的直线(投影函数)为:

y=wTx y = w T x

LDA分类的一个目标是在经过转换后,类内间距小,类间间距大,所以我们需要定义几个关键的值:

类别i的原始中心点 mi m i ,类别i投影后的中心点 mi~ m i ~ ,衡量类别i投影后,类别点之间的分散程度(方差) si~ s i ~ ,最终我们可以得到一个下面的公式,表示LDA投影到w后的损失函数:

J(w)=|m1~m2~|2s1~2+s2~2 J ( w ) = | m 1 ~ − m 2 ~ | 2 s 1 ~ 2 + s 2 ~ 2

定义 si=xDi(xmi)(xmi)T s i = ∑ x ∈ D i ( x − m i ) ( x − m i ) T ,最终将损失函数化为下式,并用拉格朗日乘子法求解,化为求特征值的问题,即最优化广义瑞利商:
J(w)=wTSBwwTSww J ( w ) = w T S B w w T S w w

其中 Sw S w 为类间散度矩阵, SB S B 为类内散度矩阵, w w 为投影方向。

PCA

主成分分析(PCA)与LDA有着非常近似的意思,LDA的输入数据是带标签的,而PCA的输入数据是不带标签的,所以PCA是一种unsupervised learning。PCA更像是一个预处理的方法,它可以将原本的数据降低维度,而使得降低了维度的数据之间的方差最大,减少信息损失。
定义方差为:

σw2=wTSw

这是一个最大化问题:
maxw wTSw,   s.t.  wTw=1 max w   w T S w ,       s . t .     w T w = 1

应用拉格朗日乘子法求得:
Sw=λw S w = λ w

这是一个标准的特征值表达式了, λ λ 对应的特征值, w w 对应的特征向量。上式的左边取得最大值的条件就是λ最大,也就是取得最大的特征值的时候。假设我们是要将一个 D D 维的数据空间投影到M维的数据空间中(M<D), 那我们取前 M M 个特征向量构成的投影矩阵就是能够使得方差最大的矩阵了。

NCA

NCA算法是一种简单有效的距离测度学习算法,该算法随机选择近邻,通过优化留一法(Leave-one-out,LOO)的交叉验证结果来求得马氏距离中的变换矩阵。来自于k近邻算法,其预测依赖于相邻的样本预测准确率。
限定马氏距离变换矩阵Q是一个对称半正定矩阵,即 Q=ATA Q = A T A ,则有:

d(xi,xj)=(xixj)T Q(xixj) d ( x i , x j ) = ( x i − x j ) T   Q ( x i − x j )

定义一个可微的softmax函数:
Pij=exp(AxiAxj2)kiexp((AxiAxk2), Pij=0 P i j = exp ⁡ ( − ‖ A x i − A x j ‖ 2 ) ∑ k ≠ i exp ⁡ ( ( − ‖ A x i − A x k ‖ 2 ) ,   P i j = 0

其中 Pij P i j 为样本点 xi x i 随机选择一个近邻,他最终选择另一个样本点 xj x j 作为其近邻继而继承其类标签 cj c j 的概率,因此得到一个最大化目标函数:
maxf(A)=jjCiPij=iPi max f ( A ) = ∑ j ∑ j ∈ C i P i j = ∑ i P i

这是一个连续可微的矩阵函数,是无约束优化问题,可以通过共轭梯度法或者随机梯度法求出A。当A是方阵时,该算法无法降维,只有距离测度学习功能。当样本是 d×D d × D 时,该算法可以将样本降到 Rd R d 空间。

参考资料

  1. https://www.cnblogs.com/LeftNotEasy/archive/2011/01/08/lda-and-pca-machine-learning.html
  2. https://blog.csdn.net/chlele0105/article/details/13006443
  3. http://cs.nju.edu.cn/lim/courses/IntroDM/IntroDM.htm (课程主页) Part 3
  4. http://cs.nju.edu.cn/_upload/tpl/00/ed/237/template237/teaching_PR.html (模式识别课程主页) 第四章PPT
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值