南瓜书第三章（3）线性判别分析

最新推荐文章于 2025-04-30 21:24:34 发布

Han___123

最新推荐文章于 2025-04-30 21:24:34 发布

阅读量1k

点赞数 28

分类专栏：机器学习文章标签：机器学习人工智能

本文链接：https://blog.csdn.net/Han___123/article/details/135855020

版权

本文介绍了线性判别分析(LDA)的基本原理，包括其作为监督降维技术的思路，以及如何通过最大化类间距离和最小化类内距离来提高样本可区分性。文章还涉及了损失函数的推导，使用拉格朗日乘子法求解最优方向w，并讨论了广义特征值和广义瑞利商的概念。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

广义线性模型可以通过“联系函数”完成分类的目的，那线性模型应如何直接完成“分类”呢？

接下来我们引入最基本的一种线性判别分析（LDA）来解答

对于西瓜书中部分符号的说明：

1、算法原理

线性判别分析是一个经典的二分类算法。

（1）主要思想:

给定训练样例集,设法将样例投影到一条直线（低维空间）上使得同类样例的投影点尽可能接近、异类样例的投影点尽可能远离:在对新样本进行分类时,将其投影到同样的这条直线上,再根据投影点的位置来确定新样本的类别.图 3.3 给出了一个二维示意图。（因此也可以被看作一种“监督降维技术”）

（2）实例：

线性判别回归即以一种基于降维的方式将所有的样本映射到一维向量w上，然

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

Han___123

关注关注

28
点赞
踩
12

收藏

觉得还不错? 一键收藏
1
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

机器学习-西瓜书、南瓜书第六章

专注大数据与人工智能技术分享，欢迎私信加群互相学习！

07-27

388

支持向量机一、间隔与支持向量 1、掌握公式推导过程： 2、什么是支持向量；解：距离超平面最近的训练样本点使上式的等号成立，它们被称为“支持向量” 3、如何寻找最优的超平面；解：首先量化最优指标（这里即为“间隔”）；然后再求其最值（这里使最大化“间隔”），寻求约束条件；最后求解。 4、支持向量机的基本型：二、对偶问题 1、对一中第4小问公式如何求解；解：利用拉格朗日乘子法得到其对偶问题，利用SMO算法求解对偶问题；三、核函数 1、核函数产生的背景；解：之前我们讨论的训

机器学习算法之线性判别分析(LDA多分类)

热门推荐

I good vegetable a!

10-23

1万+

算法原理紧接着上文：https://blog.csdn.net/just_sort/article/details/102690086 。在上文我们使用LDA实现了一个二分类任务。那么数据有大于2种类别，假设为C类，这时候怎么办呢？在上文我们定义的“类间散度矩阵” Sb=(μ1−μ2)(μ1−μ2)TS_{b}=(\mu _{1}-\mu _{2})(\mu _{1}-\mu _{2})^{T}...

1 条评论您还未登录，请先登录后发表或查看评论

【西瓜书】第三章 线性判别分析

weixin_44867290的博客

06-28

1908

LDA 的一个关键目标是在降维的同时保持类间距离最大化而类内距离最小化。它通过投影的方式实现这一目标，选择一个方向（即投影轴），使得在该方向上不同类别的数据点尽可能地分开。JwTSbwwTSwwJwTSwwwTSbw这个比值被称为损失函数，LDA 的目标是找到能够使该损失函数最小的权重向量www拉格朗日乘子法。

南瓜书第三章\线性判别分析

2301_78471905的博客

09-27

336

算法思想是：将给定样例投影到一条直线上，使得同类样本投影点尽可能相近，即同类样本方差小，异类样本投影点尽可能远离，即异类样本中心尽可能远离。，令Xi、μi、Σi分别表示第i∈{0,1}类示例的集合、均值向量、协方差矩阵，即。若将数据投影到直线w上，则两类样本的中心在直线上的投影分别为。因为我们不关心w的大小，只关心其方向，所以可以令分母为1，即。还可以把LDA推广到多分类任务中，定义“全局散度矩阵”为实数，由于我们不关心w的大小，所以可以令。若异类样本中心尽可能远离，则。，两类样本的协方差分别为。

[吃瓜教程]南瓜书第3章二分类线性判别分析

qq_41776136的博客

06-28

1140

*2.求拉格朗日函数的偏导数：**对所有变量求偏导数，并令这些偏导数等于零，得到一组方程。特别的，当B=I（单位矩阵）时，广义瑞利商退化为瑞利商。特别的，当B=I（单位矩阵）时，广义特征值问题退化为标准特征值问题。**1.构造拉格朗日函数：**将目标函数和约束条件结合，形成拉格朗日函数。分别表示反例集合和正例集合的均值向量与投影直线的夹角，围绕上面思想中的。之间的线性关系的度量。为A相对于B 的广义特征值，x为A 相对于B的属于广义特征值。的离散程度的度量，表示数据点与均值之间的偏离程度。

DataWhale西瓜书+南瓜书第3章《线性判别分析》

2302_79239614的博客

03-22

854

想象你是一所学校的校长，要把学生分成不同的班级。：LDA是分类和降维的瑞士军刀，但记得先检查数据是否“听话”（正态分布+同协方差）哦！（班级之间疏远）：计算两班平均身高体重的差值向量（比如男生平均比女生高10cm）。：让同类学生坐得近（比如学霸坐前排），不同类学生离得远（比如学渣和学霸分开坐）。：找到一条最佳“走廊”（投影方向），让穿过走廊后，不同班级的学生尽可能不重叠。（班级内部团结）：计算每个班学生的协方差矩阵（类似座位密集程度）。———— 这就是最佳分班走廊的方向！

详读西瓜书+南瓜书第3章——线性回归

m0_63714693的博客

09-21

533

【机器学习】西瓜书+南瓜书阅读笔记- 第 3 章: 线性模型

学习笔记

09-21

1145

线性回归，多元线性回归，广义线性模型（对数线性回归，对数几率回归），线性判别分析（广义瑞利商），多分类学习（OvO，OvR，MvM，ECOC，编码矩阵），类别不平衡问题（欠采样，过采样，阀值移动）

Task02：详读西瓜书+南瓜书第3章线性模型

weixin_45592399的博客

11-21

1084

一元线性回归一元线性回归我们试图学得模型均方误差均方误差E斜体样式是回归任务最常用的的性能度量，我们需要做的就是试图让均方误差最小化最小二乘法那么基于均方误差最小化来进行模型求解的方法就是“最小二乘法”。事实上，最小二乘法不仅限于线性回归，最小二乘法还可用于曲线拟合。在这里我先只考虑线性回归一元线性回归因此，对于一元线性回归，我们的目的就很清楚了。我们希望找到一个目标函数，那么想要找到这个目标函数，我们就需要基于最小二乘法求解w和b 这里我们先不考虑怎么证明凸函数，先来求解求解.

机器学习之西瓜书+南瓜书：第三章 线性模型

weixin_37801425的博客

12-21

924

这一章主要讲的是线性模型，分为回归任务和分类任务，回归任务包括一元线性回归、多元线性回归和对数几率回归，而分类任务包括线性判别分析以及多分类学习。参考链接 1、吃瓜教程】《机器学习公式详解》（南瓜书）与西瓜书公式推导直播合集 2 周志华老师的《机器学习》 1 线性回归思路：（1）模型：建立一元一次方程y=wx+b （2）策略：采用均方误差或者极大似然估计函数作为损失函数（3）算法：证明凸函数->求导等于零，即为局部最大（小）值 2 多元线性回归（1）模型：建立多元变量方程（2）策略：采用均

《机器学习》【南瓜书+西瓜书】读书笔记——第三章 线性模型

m0_74037247的博客

02-15

311

从线性回归学习机器学习三要素： 1.模型：根据具体问题，确定假设空间 2.策略：根据评价标准，确定选取最优模型的策略（通常会产出一个“损失函数”） 3.算法：求解损失函数，确定最优模型

JCRQ1河马算法+消融实验！HO-CNN-LSTM-Attention系列四模型多变量时序预测，作者：机器学习之心

CSDN博主《机器学习之心》（IP：广东）小助手的博客

04-30

161

JCRQ1河马算法+消融实验！HO-CNN-LSTM-Attention系列四模型多变量时序预测，作者：机器学习之心

AI编程案例拆解|基于机器学习XX评分系统-后端篇

qq_42320804的博客

04-26

786

AI编程案例拆解|基于机器学习XX评分系统-后端篇

机器学习中的标签策略：直接标签、代理标签与人工数据生成

青蛙博客

04-28

952

本文深入探讨了机器学习领域中标签的关键概念，包括直接标签与代理标签的定义、优缺点比较，以及人工生成数据的相关内容。通过详细实例和练习，帮助读者理解如何选择合适的标签类型和数据生成方式，从而优化机器学习模型的性能和准确性。文章强调了标签质量对模型训练的重要性，并提供了实践建议以确保数据质量和模型有效性。

《机器学习中的过拟合与模型复杂性：理解与应对策略》

青蛙博客

04-30

408

在机器学习中，过拟合是模型在训练数据上表现良好但在新数据上泛化能力差的现象。本文深入探讨了过拟合与模型复杂性之间的关系，分析了复杂模型导致过拟合的原因，并介绍了正则化技术（如 L1 和 L2 正则化）如何通过惩罚复杂模型来改善模型的泛化能力。通过具体实例，本文展示了如何在实际机器学习项目中平衡模型的复杂性和泛化能力，为机器学习实践者提供了实用的指导。

机器学习之二：指导式学习

搏博的专栏

04-27

986

这种学习方式如同学生在教师的明确指导下学习，训练数据中的标签（如分类类别、回归目标值）相当于教师提供的“标准答案”，模型通过分析这些“例题”与“答案”的对应关系，掌握解决问题的能力。指导式学习作为机器学习的基石，其理论和方法将持续演进，与无监督学习、强化学习深度融合，推动人工智能从“有监督的专项智能”向“自主学习的通用智能”迈进。4）数据集划分：将数据分为训练集（80%）、验证集（10%）、测试集（10%），用于模型选择和泛化能力评估。正如人们有各种各样的学习方法一样，机器学习也有多种学习方法。

机器学习（9）——随机森林

jiaomongjun的博客

04-25

1089

它通过构建多个决策树（Decision Tree），并通过集成学习的思想，最终输出多个决策树的结果的平均值或多数投票结果，从而提高模型的准确性和稳定性。随机森林的核心思想是通过构建多个决策树，并结合它们的结果来进行预测。决策树继续生长，直到满足一定条件（例如，树的深度达到预设的最大值，或者节点的样本数小于某个阈值）为止。随机选择特征：在每个决策树的每个节点，选择一个随机的特征子集来进行分裂，而不是使用所有特征。在每个节点的划分时，随机选择一个特征子集，而不是使用所有特征，从而减少不同决策树之间的相关性。

大连理工大学选修课——机器学习笔记（9）：线性判别式与逻辑回归

最新发布

m0_75077001的博客

04-30

396

产生式模型需要计算输入、输出的联合概率判别式模型直接构造判别式gix∣θi，显式定义判别式参数，不关心数据生成过程基于判别式的方法只关注类区域之间的边界一般认为，估计样本集的类密度比估计类判别式更困难，因为构造判别式通常采用简单的模型gix∣wiwi0wiTwi0j1∑dwijxjwi0广义上，线性判别式代表了一类机器学习模型狭义上，线性判别式仅代表逻辑回归。

机器学习——朴素贝叶斯法运用

2301_80841566的博客

04-26

1006

朴素贝叶斯法是一种基于贝叶斯定理的简单概率分类方法，它假设特征之间。它适用于，尤其是在文本分类中表现良好。其核心思想是通过考虑各个特征的概率来预测分类（即对于给出的待分类样本，计算该样本在每个类别下出现的概率，最大的就被认为是该分类样本所属于的类别。

机器学习西瓜书第三章代码

03-25

<think>好的，我现在需要帮助用户找到《机器学习西瓜书》第三章的代码实现，并且用户特别提到用Python。首先，我得回忆一下第三章的内容。西瓜书的第三章主要是关于线性模型，包括线性回归、对数几率回归（也就是逻辑回归）、线性判别分析（LDA）以及多分类学习等。接下来，我要考虑用户的需求。用户可能已经看过理论部分，现在需要实际的代码来加深理解或者应用。不过西瓜书本身并没有提供完整的代码，通常需要参考南瓜书或者其他开源项目，比如Datawhale的南瓜书项目，他们可能会有配套的代码实现。然后，我需要检查提供的引用内容。根据用户给出的引用[2]，里面提到了第三章的线性模型和类别划分的编码矩阵，还有解码过程。引用[3]提到了第五章的神经网络代码，可能不太相关。引用[1]则涉及聚类算法的代码，属于后面的章节。所以主要的线索在引用[2]里，但具体代码实现可能需要更多信息。接下来，我需要确定用户是否有其他资源可用。比如，南瓜书通常会有配套的代码，或者一些开源社区如GitHub上的项目。可能需要引导用户去这些地方查找。另外，用户可能不知道南瓜书的存在，所以需要提及这一点。然后，考虑用户可能的深层需求。他们可能想通过代码来实践第三章的内容，比如实现线性回归、逻辑回归或者多分类问题。因此，除了直接指出资源的位置，最好也能提供一些简单的示例代码，帮助他们入门。比如，用sklearn实现线性回归或逻辑回归，或者手动编写梯度下降的代码。另外，用户可能遇到的问题包括数据准备、参数设置、算法理解等，所以示例代码需要简单明了，并附有必要的注释。同时，需要注意代码的正确性，比如在逻辑回归中使用sigmoid函数，处理多分类时的策略如OvR或OvO。最后，要确保回答结构清晰，分点列出资源链接和示例代码，并提醒用户参考书籍的具体页码，如引用中提到的南瓜书第56页和西瓜书第197页，但第三章可能需要不同的页码。不过用户的问题集中在第三章，可能需要确认正确的引用页码，但根据现有信息，引用[2]提到了第三章，所以可以引用它。总结步骤： 1. 指出官方代码可能不完整，建议参考南瓜书和开源项目。 2. 提供GitHub链接，如Datawhale的南瓜书项目。 3. 给出线性回归和逻辑回归的示例代码，使用sklearn和手动实现。 4. 提及多分类学习的实现方法，如OvR和OvO。 5. 添加相关问题，帮助用户深入理解。</think>根据《机器学习》（西瓜书）第三章“线性模型”的理论内容，以下是代码实现思路及参考资源整理： --- ### 一、第三章核心算法及对应代码实现 第三章主要包含以下模型，代码实现方式如下： 1. **线性回归** - 手动实现梯度下降法： ```python import numpy as np # 生成数据 X = np.array([[1, 2], [2, 3], [3, 4]]) y = np.dot(X, np.array([1, 2])) + 3 + np.random.normal(0, 0.1, 3) # 梯度下降 w = np.random.randn(2) b = 0 lr = 0.01 for _ in range(1000): y_pred = np.dot(X, w) + b grad_w = np.dot(X.T, (y_pred - y)) / len(y) grad_b = np.mean(y_pred - y) w -= lr * grad_w b -= lr * grad_b print(f"权重: {w}, 偏置: {b}") ``` - 使用 `sklearn` 实现： ```python from sklearn.linear_model import LinearRegression model = LinearRegression().fit(X, y) print(f"权重: {model.coef_}, 偏置: {model.intercept_}") ``` 2. **对数几率回归（逻辑回归）** - Sigmoid函数与交叉熵损失实现： ```python def sigmoid(z): return 1 / (1 + np.exp(-z)) # 二分类逻辑回归梯度下降 X = np.array([[1, 2], [2, 3], [3, 4]]) y = np.array([0, 1, 1]) w = np.random.randn(2) b = 0 for _ in range(1000): logits = np.dot(X, w) + b probs = sigmoid(logits) grad_w = np.dot(X.T, (probs - y)) / len(y) grad_b = np.mean(probs - y) w -= lr * grad_w b -= lr * grad_b ``` - 使用 `sklearn` 实现： ```python from sklearn.linear_model import LogisticRegression model = LogisticRegression().fit(X, y) ``` 3. **线性判别分析（LDA）** ```python from sklearn.discriminant_analysis import LinearDiscriminantAnalysis model = LinearDiscriminantAnalysis().fit(X, y) ``` 4. **多分类学习（OvR/OvO策略）** ```python from sklearn.multiclass import OneVsRestClassifier, OneVsOneClassifier from sklearn.svm import SVC ovr_model = OneVsRestClassifier(SVC()).fit(X, y) ovo_model = OneVsOneClassifier(SVC()).fit(X, y) ``` --- ### 二、官方代码资源 1. **南瓜书配套代码** - GitHub仓库地址：[https://github.com/datawhalechina/pumpkin-book](https://github.com/datawhalechina/pumpkin-book) - 第三章代码文件通常命名为 `ch03_linear_models.ipynb`，包含线性回归、逻辑回归的推导与实现[^2]。 2. **第三方实现参考** - 线性模型完整实现（含梯度下降可视化）：[西瓜书线性模型代码示例](https://github.com/Vay-keen/Machine-learning-learning-notes) --- ### 三、关键理论对照 - **编码与解码策略**：多分类问题中，`OneVsRest` 对应“一对其余”（OvR），`OneVsOne` 对应“一对一”（OvO），分类结果通过编码矩阵组合后解码得到最终预测。 - **性能优化**：逻辑回归可通过调整正则化参数（如 `penalty='l2'`）或使用随机梯度下降（`SGDClassifier`）优化。 ---

南瓜书第三章（3） 线性判别分析

1、算法原理

（1）主要思想:

（2）实例：

南瓜书第三章（3）线性判别分析