机器学习——特征工程之线性判别分析LDA

一、前言

1、 线性判别式分析(Linear Discriminant Analysis, LDA),也叫做Fisher线性判别(Fisher Linear Discriminant, FLD),是模式识别的经典线性学习算法,也是一种监督学习的降维技术。

2、 基本思想:将高维的模式样本投影到最佳鉴别矢量空间,以达到抽取分类信息和压缩特征空间维数的效果,投影后保证模式样本在新的子空间有最大的类间距离和最小的类内距离,即模式在该空间中有最佳的可分离性。

3、 在对新样本进行分类时,将其投影到同样的这条直线上,再根据投影点的位置来确定新样本的类别。

4、 LDA原理:将样本点投影到低维形成类簇,即可达到分类效果,也实现了特征降维的效果


二、LDA数学原理 S_i=∑_{x∈X_i} (x-μ)^2 =∑_{x∈X_i}(x-μ_i )^2

1、 给定数据集 D={(x_i,y_i )}_{i=1}^m , y∈\{0,1\} , X_i 表示类示例集合

2、 类样本均值 μ_i=1/n_i ∑_{x∈class i}x ,总体样本均值 μ=1/m ∑_{i=1}^m x_i

3、 类样本投影后的均值 μ_i{'}=w^T μ_i ,总体样本投影后的均值 μ{'}=w^T μ

4、 投影后类内分散程度 (s_i ) ̂=∑_{x{'}∈X_i} (x{'}-μ_i {'})^2 =∑_{x{'}∈X_i} w^T (x{'}-μ_i{'}) (x{'}-μ_i{'} )^T w= w^T S_i w

    a) 投影后的类样本 x{'}=w^T x

    b) 原始空间类内分散程度 S_i=∑_{x∈X_i} (x-μ)^2 =∑_{x∈X_i} (x-μ_i )^2

5、 类间分散程度 S_b=|μ_1-μ_2 |^2 (二分类)或 S_b=∑_{i=1}^Cn_i (μ_i-μ) (μ_i-μ)^T  (多分类)

6、 建立损失函数 J(w)=(w^T S_b w)/(w^T S_w w) , S_w=s_1{'}+s_2{'} 或 S_w=∑_{i=1}^C S_i

7、 LDA的最大化目标: S_b 与 S_w 的“广义瑞利商”

    a)

    b) 根据拉格朗日乘子法得 c(w)=w^T S_b w+λ(w^T S_w w-1)

    c) 求导取0,求极值得 S_b w=λS_w w→S_w^{-1} S_b w=λw

8、 简化运算


三、LDA与PCA对比

1、 相同点

    a) 两者均可以对数据进行降维

    b) 两者在降维时均使用了矩阵特征分解的思想

    c) 两者都假设数据符合高斯分布

2、 不同点

    a) LDA有监督,PCA无监督

    b) LDA最多降维到类别数K-1的维数,而PCA无限制

    c) LDA除了降维,还可用来分类

    d) LDA选择分类性能最好的投影方向,而PCA选择样本点投影具有最大方差的方向


四、LDA特点

1、 优点

    a) 降维过程中可以使用类别的先验只是经验

    b) LDA在样本分类信息依赖均值而不是方差的时候,比PCA算法较优

2、 缺点

    a) 不适合对非高斯分布样本进行降维(PCA同)

    b) 维度限制较为严重,降维的维度大于类别数K-1时,不能使用LDA

    c) LDA在样本分类信息依赖方差而不是均值的时候,降维效果不好

    d) LDA可能过度拟合数据


参考博客:http://link.zhihu.com/?target=http%3A//www.cnblogs.com/pinard/p/6244265.html

  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值