史上最直白的LDA教程之一

最新推荐文章于 2025-04-15 08:45:00 发布

未济2019

最新推荐文章于 2025-04-15 08:45:00 发布

阅读量9.7k

点赞数 3

分类专栏：深度学习文章标签： LDA

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/lizhe_dashuju/article/details/50329663

版权

LDA（线性鉴别分析）是一种用于降维和分类的有监督学习方法。本文详细介绍了LDA的原理，包括二分LDA的概念、类间散度和类内散度的计算，以及如何通过优化提升分类的区分度。最后，提供了使用Python实现LDA算法的示例代码，展示如何通过LDA将数据转换以达到良好的分类效果。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

前言

LDA线性鉴别分析，又叫线性鉴别矢量，它是Ronald Fisher发明的，所以有时候又叫Fisher鉴别矢量，它的核化版本叫KFDA(Kernel Fisher Discriminant Analysis)。

机器学习的分类问题
，是一种有监督学习。所谓有监督，就是知道训练样本的类别。顾名思义，无监督学习就是没有样本的类别信息，比如PCA就是无监督学习，如我们前面推导过的PCA，不需要知道样本的类别。

LDA的作用是降维Dimensionality Reduction。比如说，一个大型机组，有几千个测点（特征），几十个性能指标（类别），对每个性能指标而言，只跟部分测点有关。LDA可以从几千个测点里，重建性能指标的最佳区分特征，所以它又是一种特征重建算法。

二分LDA

分类问题的基础是二分分类，我们以它描述LDA算法。

设 $x$ 是一个 $d$ 维随机变量，它表示一个样本：

x = ⎛ ⎝ ⎜ ⎜ ⎜ x 1 x 2 . . . x d ⎞ ⎠ ⎟ ⎟ ⎟

$\begin{equation} x = \left( \begin{array}{c} x_1 \\ x_2 \\ ...\\ x_d \end{array} \right) \end{equation}$

设对 $x$ 而言，有两类数据集，一个是 $D_1$ ，一个是 $D_2$ ，前者里有 $n_1$ 个样本，后者有 $n_2$ 个样本。

设 $\bar m$ 表示数据集的均值，那么， $D_1$ 和 $D_2$ 的均值是：

m ¯ j = \sum x i \in D j x i j \in {1, 2}

$\begin{equation} \bar m_j = \sum_{x_i \in D_j} x_i \,\,\,\,\, j\in \{1,2\} \end{equation}$
注意，这里的

xi $x_i$ 表示一个

m $m$ 维向量，是粗体符号，那么，当然

m¯j $\bar m_j$ 也是一个

m $m$ 维向量。

两个 $d$ 维样本 $x_1$ 和 $\ x_2$ 之的距离按照如下方式计算：

d i s = ∥ x 1 - x 2 ∥ = \sum i = 1 d (x 1, i - x 2, i) 2 - - - - - - - - - - - - -  ⎷  

$\begin{equation} dis=\| x_1 - x_2 \|=\sqrt {\sum_{i=1}^{d}(x_{1,i}-x_{2,i})^2} \end{equation}$

根据距离，定义 $D_j\,\,\, j\in\{1,2\}$ 的两个非常重要的指标，类间散度和类内散度。

类间散度，表示 $D_1$ 和 $D_2$ 之间的疏离程度，直观地来说， $\bar m_1$ 和 $\bar m_2$ 之间的距离越大， $D_1$ 和 $D_2$ 的类间散度越大：

d i s

最低0.47元/天解锁文章

评论 3

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。