线性判别分析笔记

本文介绍了LDA(线性判别分析)的基本思想,通过将数据投影到直线以降低类内差异并增大类间距离,从而实现多分类任务中的有效分类。讨论了协方差矩阵、类内散度矩阵和类间散度矩阵在目标函数中的作用,并展示了如何通过优化目标找到最佳投影。最后,文章概述了多分类LDA的不同实现方法,重点提及了一种常见的优化目标形式。
摘要由CSDN通过智能技术生成

        LDA 思想为:对给定的训练集,设法将样例投影到一条直线上,使得同类样例的投影点尽可能接近,异类样例投影点尽可能远离;在对新样本进行分类时,将其投影到同样的这条直线上,再根据投影点的位置来确定样本的类别。

        对给定的数据集 D=\left \{ (X_i,y_i) \right \}_{i=1}^m,\,y_i\in \left \{ 0,1 \right \} ,令 X_i,\mu_i,\Sigma _i 分别表示第 i\in\left \{ 0,1 \right \} 类示例的集合、均值向量、协方差矩阵。若将数据投影到直线 w 上,则两类样本的中心点在直线上的投影分别为 w^T\mu_0 和 w^T\mu_1;若所有的样本点投影到直线上,则两类样本的协方差分别为 w^T\Sigma _0w 和 w^T\Sigma _1w 。

        对投影结果,应使同类样本的协方差尽可能小,即 w^T\Sigma _0w+w^T\Sigma _1w 尽可能小;同时使异类样本投影尽可能远离,即  尽可能地大。由此得到最大化目标:

J=\frac{\left \| w^T\mu_0 -w^T\mu_1\right \|_2^2 }{w^T\Sigma _0w+w^T\Sigma _1w}=\frac{w^T(\mu_0-\mu_1)(\mu_0-\mu_1)^Tw}{w^T(\Sigma _0+\Sigma _1)w}

         定义类内散度矩阵

S_w=\Sigma _0+\Sigma _1=\sum_{X\in X_0}(x-\mu_0)(x-\mu_0)^T+\sum_{X\in X_1}(x-\mu_1)(x-\mu_1)^T

        定义类间散度矩阵

S_b=(\mu_0-\mu_1)(\mu_0-\mu_1)^T

        则最大化目标 J 可以重写为

J=\frac{w^TS_bw}{w^TS_ww}

        注意到目标函数的分子分母都是关于 w 的二次项,该式的解与 w 的长度无关而仅与其方向有关。不失一般性,令 w^TS_ww=1 ,则可以得到

\left\{\begin{matrix} \underset{w}{min} & -w^TS_bw\\ s.t. &w^TS_ww=1 \end{matrix}\right.

解得

w=S_w^{-1}(\mu_0-\mu_1)

        将其推广至多分类问题,假定存在 N 个类,且第 i 类示例数为 m_i ,首先定义全局散度矩阵:

S_t=S_b+S_w=\sum_{i=1}^m(X_i-\mu)(X_i-\mu)^T

        其中 \mu 是所有示例的均值向量,将类内散度矩阵 S_w 重定义位每个类别的散度矩阵之和,即

S_w=\sum_{i=1}^NS_{w_i}

可以得到

 S_b=S_t-S_w=\sum_{i=1}^Nm_i(\mu_i-\mu)(\mu_i-\mu)^T

显然,多分类 LDA 有多种实现方法,使用 S_b,S_w,S_t 三者中的任何两个就可。

        常见的一种是采用优化目标:

\underset{W}{max}\frac{tr(W^TS_bW)}{tr(W^TS_wW)}

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值