第四章分类问题

目录

第五题

线性判别分析 (LDA)

概述

假设

公式

优点

缺点

二次判别分析 (QDA)

概述

假设

公式

优点

缺点

比较

第六题

​编辑

​编辑

第八题

逻辑回归

1-最近邻

比较与结论

第九题

第十二题


第五题

LDA(线性判别分析)和QDA(二次判别分析)是两种常用的分类算法,它们在统计学习和模式识别中有着广泛的应用。以下是对LDA和QDA的介绍:

线性判别分析 (LDA)

概述

线性判别分析是一种用于分类和降维的技术。LDA假设各类别的协方差矩阵是相等的,因此其决策边界是线性的。

假设
  • 各类别的协方差矩阵相等。
  • 数据服从正态分布(高斯分布)。
公式

LDA的判别函数 gk(x)g_k(x)gk​(x) 为: gk(x)=xTΣ−1μk−12μkTΣ−1μk+ln⁡P(Y=k)g_k(x) = x^T \Sigma^{-1} \mu_k - \frac{1}{2} \mu_k^T \Sigma^{-1} \mu_k + \ln P(Y=k)gk​(x)=xTΣ−1μk​−21​μkT​Σ−1μk​+lnP(Y=k) 其中:

  • Σ\SigmaΣ 是类别共享的协方差矩阵。
  • μk\mu_kμk​ 是第 kkk 类的均值向量。
  • P(Y=k)P(Y=k)P(Y=k) 是第 kkk 类的先验概率。
优点
  • 计算简单,速度快。
  • 在样本量不大时表现良好。
  • 在决策边界接近线性时效果较好。
缺点
  • 假设各类别协方差矩阵相等,如果这一假设不成立,分类效果可能较差。
  • 对异常值敏感。

二次判别分析 (QDA)

概述

二次判别分析是LDA的扩展,允许各类别有不同的协方差矩阵,因此其决策边界是二次的。

假设
  • 各类别的协方差矩阵不必相等。
  • 数据服从正态分布(高斯分布)。
公式

QDA的判别函数 gk(x)g_k(x)gk​(x) 为: gk(x)=−12ln⁡∣Σk∣−12(x−μk)TΣk−1(x−μk)+ln⁡P(Y=k)g_k(x) = -\frac{1}{2} \ln|\Sigma_k| - \frac{1}{2} (x - \mu_k)^T \Sigma_k^{-1} (x - \mu_k) + \ln P(Y=k)gk​(x)=−21​ln∣Σk​∣−21​(x−μk​)TΣk−1​(x−μk​)+lnP(Y=k) 其中:

  • Σk\Sigma_kΣk​ 是第 kkk 类的协方差矩阵。
  • μk\mu_kμk​ 是第 kkk 类的均值向量。
  • P(Y=k)P(Y=k)P(Y=k) 是第 kkk 类的先验概率。
优点
  • 更灵活,可以处理协方差矩阵不同的情况。
  • 能够拟合更复杂的决策边界,适用于非线性分类问题。
缺点
  • 计算复杂度较高。
  • 在样本量较小时,容易过拟合。
  • 对异常值敏感。

比较

  • LDA 假设各类别的协方差矩阵相同,因此更适用于线性决策边界的问题。它计算简单、速度快,但在处理非线性问题时可能效果不佳。
  • QDA 则允许各类别有不同的协方差矩阵,适用于更复杂的非线性问题。尽管其灵活性更高,但计算复杂度也更大,且在样本量较少时容易过拟合。

总结来说,LDA和QDA都是强大的分类工具,选择哪个方法取决于具体的数据特征和分类任务的要求。如果数据的类别分布接近线性,LDA可能是更好的选择;如果数据分布复杂且样本量足够大,

5. 我们现在来研究LDA和QDA之间的差异。
(a) 如果贝叶斯决策边界是线性的,我们期望在训练集上LDA或QDA哪个表现更好?在测试集上呢? (b) 如果贝叶斯决策边界是非线性的,我们期望在训练集上LDA或QDA哪个表现更好?在测试集上呢? (c) 一般来说,随着样本量n的增加,我们期望QDA相对于LDA的测试预测准确性是提高、下降还是不变?为什么? (d) 真或假:即使给定问题的贝叶斯决策边界是线性的,我们可能会通过使用QDA而不是LDA来获得更好的测试错误率,因为QDA足够灵活以建模线性决策边界。请证明你的答案。

回答:

(a) 如果贝叶斯决策边界是线性的,在训练集上我们期望LDA表现更好。因为LDA假设类别的协方差矩阵是相等的,这正是线性边界的前提条件。因此,LDA可以更好地拟合训练数据。在测试集上,由于模型的复杂度和灵活性,LDA也可能表现更好或至少与QDA相当,因为LDA是为线性边界设计的,而QDA可能会过拟合训练数据。

(b) 如果贝叶斯决策边界是非线性的,在训练集上我们期望QDA表现更好。因为QDA假设每个类别有不同的协方差矩阵,这使得它可以拟合更复杂的非线性决策边界。在测试集上,由于QDA的灵活性,它也有可能表现更好,因为它可以更好地捕捉数据中的非线性模式。然而,如果训练样本量不足,QDA可能会过拟合,因此在这种情况下LDA可能表现得更好。

(c) 一般来说,随着样本量 nnn 的增加,我们期望QDA相对于LDA的测试预测准确性提高。原因是随着样本量的增加,QDA能够更准确地估计每个类别的协方差矩阵,从而更好地拟合实际的决策边界。因此,随着样本量的增加,QDA的模型复杂度可以得到更好的控制,测试预测准确性会提高。

(d) 假的。如果贝叶斯决策边界是线性的,那么LDA会表现得更好或至少与QDA相当。虽然QDA足够灵活,可以建模线性决策边界,但它也有可能过拟合训练数据,特别是在样本量较小的情况下。LDA的模型更简单,当决策边界是线性时,它可以更稳健地拟合数据,因此在这种情况下LDA的测试错误率可能会更低。

总结: (a) 线性边界:训练集和测试集上LDA表现更好。 (b) 非线性边界:训练集和测试集上QDA表现更好(但需注意过拟合)。 (c) 样本量增加:QDA的测试预测准确性相对于LDA提高。 (d) 假:线性决策边界时,LDA可能表现更好或至少与QDA相当。

第六题

6. 假设我们收集了一组统计课学生的数据,变量为X1=学习时间(小时),X2=本科GPA,Y=获得A的概率。我们拟合了一个逻辑回归模型,并得到了估计系数:βˆ0 = −6,βˆ1 = 0.05,βˆ2 = 1。 (a) 估计一个学习40小时且本科GPA为3.5的学生在这门课上获得A的概率。 (b) 部分(a)中的学生需要学习多少小时才能有50%的几率在这门课上获得A?

回答:

(a) 估计一个学习40小时且本科GPA为3.5的学生在这门课上获得A的概率

第八题

8. 假设我们取一个数据集,将其分成大小相等的训练集和测试集,然后尝试两种不同的分类方法。首先,我们使用逻辑回归,得到的训练数据错误率为20%,测试数据错误率为30%。
接下来,我们使用1-最近邻(即K=1),在训练集和测试集上的平均错误率(在训练数据和测试数据集上平均)为18%。基于这些结果,我们应该更倾向于使用哪种方法来对新观测值进行分类?为什么?

解释:

根据给定的结果,我们需要比较逻辑回归和1-最近邻(K=1)这两种方法的性能,以决定哪种方法更适合对新观测值进行分类。

  1. 逻辑回归

    • 训练集错误率:20%
    • 测试集错误率:30%
  2. 1-最近邻

    • 训练集和测试集的平均错误率:18%

逻辑回归

逻辑回归在训练集上的错误率较低(20%),但在测试集上的错误率较高(30%)。
这表明逻辑回归可能存在过拟合现象,即它在训练数据上表现良好,但在未见过的数据(测试数据)上表现较差。

1-最近邻

1-最近邻在训练集和测试集上的平均错误率为18%。虽然我们没有分别给出训练集和测试集的错误率,但这个平均值表明1-最近邻在整体上表现较好。

比较与结论

为了选择更好的分类方法,我们通常关注模型在测试集上的表现,因为测试集代表了模型对新数据的预测能力。虽然逻辑回归在训练数据上的错误率较低,但它在测试数据上的错误率较高,表明其泛化能力较差。而1-最近邻在训练集和测试集上的平均错误率为18%,表明它在训练数据和测试数据上都有相对较好的表现。

尽管1-最近邻的具体训练和测试错误率没有明确给出,但从平均错误率来看,1-最近邻的表现更为稳定和可靠。因此,基于这些结果,我们应该更倾向于使用1-最近邻方法来对新观测值进行分类。

综上所述,1-最近邻(K=1)由于其较低的平均错误率和稳定的表现,应该是更好的选择。

第九题

9. 这个问题与赔率有关。 (a) 平均来说,违约赔率为0.37的人群中有多少比例的人实际上会违约? (b) 假设一个人有16%的概率违约她的信用卡付款。她违约的赔率是多少?

解释

第十二题

  • 47
    点赞
  • 28
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值