第四章分类问题

乄北城以北乀

于 2024-06-22 17:24:36 发布

阅读量1.3k

点赞数 47

分类专栏：数据挖掘文章标签：算法数据挖掘机器学习人工智能

本文链接：https://blog.csdn.net/lzfnb666/article/details/139883614

版权

数据挖掘专栏收录该内容

7 篇文章 1 订阅

订阅专栏

第五题

LDA（线性判别分析）和QDA（二次判别分析）是两种常用的分类算法，它们在统计学习和模式识别中有着广泛的应用。以下是对LDA和QDA的介绍：

线性判别分析 (LDA)

概述

线性判别分析是一种用于分类和降维的技术。LDA假设各类别的协方差矩阵是相等的，因此其决策边界是线性的。

假设

各类别的协方差矩阵相等。
数据服从正态分布（高斯分布）。

公式

LDA的判别函数 gk(x)g_k(x)gk(x) 为： gk(x)=xTΣ−1μk−12μkTΣ−1μk+ln⁡P(Y=k)g_k(x) = x^T \Sigma^{-1} \mu_k - \frac{1}{2} \mu_k^T \Sigma^{-1} \mu_k + \ln P(Y=k)gk(x)=xTΣ−1μk−21μkTΣ−1μk+lnP(Y=k) 其中：

Σ\SigmaΣ 是类别共享的协方差矩阵。
μk\mu_kμk 是第 kkk 类的均值向量。
P(Y=k)P(Y=k)P(Y=k) 是第 kkk 类的先验概率。

优点

计算简单，速度快。
在样本量不大时表现良好。
在决策边界接近线性时效果较好。

缺点

假设各类别协方差矩阵相等，如果这一假设不成立，分类效果可能较差。
对异常值敏感。

二次判别分析 (QDA)

概述

二次判别分析是LDA的扩展，允许各类别有不同的协方差矩阵，因此其决策边界是二次的。

假设

各类别的协方差矩阵不必相等。
数据服从正态分布（高斯分布）。

公式

QDA的判别函数 gk(x)g_k(x)gk(x) 为： gk(x)=−12ln⁡∣Σk∣−12(x−μk)TΣk−1(x−μk)+ln⁡P(Y=k)g_k(x) = -\frac{1}{2} \ln|\Sigma_k| - \frac{1}{2} (x - \mu_k)^T \Sigma_k^{-1} (x - \mu_k) + \ln P(Y=k)gk(x)=−21ln∣Σk∣−21(x−μk)TΣk−1(x−μk)+lnP(Y=k) 其中：

Σk\Sigma_kΣk 是第 kkk 类的协方差矩阵。
μk\mu_kμk 是第 kkk 类的均值向量。
P(Y=k)P(Y=k)P(Y=k) 是第 kkk 类的先验概率。

优点

更灵活，可以处理协方差矩阵不同的情况。
能够拟合更复杂的决策边界，适用于非线性分类问题。

缺点

计算复杂度较高。
在样本量较小时，容易过拟合。
对异常值敏感。

比较

LDA 假设各类别的协方差矩阵相同，因此更适用于线性决策边界的问题。它计算简单、速度快，但在处理非线性问题时可能效果不佳。
QDA 则允许各类别有不同的协方差矩阵，适用于更复杂的非线性问题。尽管其灵活性更高，但计算复杂度也更大，且在样本量较少时容易过拟合。

总结来说，LDA和QDA都是强大的分类工具，选择哪个方法取决于具体的数据特征和分类任务的要求。如果数据的类别分布接近线性，LDA可能是更好的选择；如果数据分布复杂且样本量足够大，

5. 我们现在来研究LDA和QDA之间的差异。
(a) 如果贝叶斯决策边界是线性的，我们期望在训练集上LDA或QDA哪个表现更好？在测试集上呢？ (b) 如果贝叶斯决策边界是非线性的，我们期望在训练集上LDA或QDA哪个表现更好？在测试集上呢？ (c) 一般来说，随着样本量n的增加，我们期望QDA相对于LDA的测试预测准确性是提高、下降还是不变？为什么？ (d) 真或假：即使给定问题的贝叶斯决策边界是线性的，我们可能会通过使用QDA而不是LDA来获得更好的测试错误率，因为QDA足够灵活以建模线性决策边界。请证明你的答案。

回答：

(a) 如果贝叶斯决策边界是线性的，在训练集上我们期望LDA表现更好。因为LDA假设类别的协方差矩阵是相等的，这正是线性边界的前提条件。因此，LDA可以更好地拟合训练数据。在测试集上，由于模型的复杂度和灵活性，LDA也可能表现更好或至少与QDA相当，因为LDA是为线性边界设计的，而QDA可能会过拟合训练数据。

(b) 如果贝叶斯决策边界是非线性的，在训练集上我们期望QDA表现更好。因为QDA假设每个类别有不同的协方差矩阵，这使得它可以拟合更复杂的非线性决策边界。在测试集上，由于QDA的灵活性，它也有可能表现更好，因为它可以更好地捕捉数据中的非线性模式。然而，如果训练样本量不足，QDA可能会过拟合，因此在这种情况下LDA可能表现得更好。

(c) 一般来说，随着样本量 nnn 的增加，我们期望QDA相对于LDA的测试预测准确性提高。原因是随着样本量的增加，QDA能够更准确地估计每个类别的协方差矩阵，从而更好地拟合实际的决策边界。因此，随着样本量的增加，QDA的模型复杂度可以得到更好的控制，测试预测准确性会提高。

(d) 假的。如果贝叶斯决策边界是线性的，那么LDA会表现得更好或至少与QDA相当。虽然QDA足够灵活，可以建模线性决策边界，但它也有可能过拟合训练数据，特别是在样本量较小的情况下。LDA的模型更简单，当决策边界是线性时，它可以更稳健地拟合数据，因此在这种情况下LDA的测试错误率可能会更低。

总结： (a) 线性边界：训练集和测试集上LDA表现更好。 (b) 非线性边界：训练集和测试集上QDA表现更好（但需注意过拟合）。 (c) 样本量增加：QDA的测试预测准确性相对于LDA提高。 (d) 假：线性决策边界时，LDA可能表现更好或至少与QDA相当。

第六题

6. 假设我们收集了一组统计课学生的数据，变量为X1=学习时间（小时），X2=本科GPA，Y=获得A的概率。我们拟合了一个逻辑回归模型，并得到了估计系数：βˆ0 = −6，βˆ1 = 0.05，βˆ2 = 1。 (a) 估计一个学习40小时且本科GPA为3.5的学生在这门课上获得A的概率。 (b) 部分(a)中的学生需要学习多少小时才能有50%的几率在这门课上获得A？

回答：

(a) 估计一个学习40小时且本科GPA为3.5的学生在这门课上获得A的概率

第八题

8. 假设我们取一个数据集，将其分成大小相等的训练集和测试集，然后尝试两种不同的分类方法。首先，我们使用逻辑回归，得到的训练数据错误率为20%，测试数据错误率为30%。
接下来，我们使用1-最近邻（即K=1），在训练集和测试集上的平均错误率（在训练数据和测试数据集上平均）为18%。基于这些结果，我们应该更倾向于使用哪种方法来对新观测值进行分类？为什么？

解释：

根据给定的结果，我们需要比较逻辑回归和1-最近邻（K=1）这两种方法的性能，以决定哪种方法更适合对新观测值进行分类。