JMU21 机器学习-期末考试总结

本文总结了机器学习期末考试的重点,包括knn算法流程与优缺点、过拟合和欠拟合的原因及解决方法、判别式与生成式模型的概念及对应算法、评估模型性能的四个指标及其计算公式,以及PCA算法的流程和优缺点。同时,回顾了计算题中的朴素贝叶斯、决策树和SVM最大间隔超平面的计算方法。
摘要由CSDN通过智能技术生成

jmdx 计算机工程学院-机器学习 考试题型:简答题40分和计算题60分

目录

1. 简答题(5题*8分)

1.1 请写出knn算法的流程以及优缺点

1.2 过拟合与欠拟合概念、原因以及解决方法

1.3 判别式模型与生成式模型的概念以及分别列举相对应的算法

1.4 简述评估模型性能四个指标以及计算公式

1.5 PCA算法流程以及优缺点

2. 计算题(3题*20分)

2.1 朴素贝叶斯

2.2 决策树-基尼指数

2.3 svm最大间隔超平面的计算(重点反思)

2.3.1 解法一(上课老师所教授的几何解释法)

2.3.2 解法二(根据概念取巧 反向求解)

2.3.3 python代码 

3. 下次考试可能会考的题目

3.1 系统复习(可以参考如下博客)

3.2 预测


1. 简答题(5题*8分)

1.1 请写出knn算法的流程以及优缺点

【算法流程】

(1)计算测试数据与各个训练数据之间的距离;
(2)按照距离的递增关系进行排序;
(3)选取距离最小的K个点;
(4)确定前K个点所在类别的出现频率;
(5)返回前K个点中出现频率最高的类别作为测试数据的预测分类 

【优缺点】

(1)优点

         可以处理分类问题,算法简单易懂;可以免去训练过程;KNN还可以处理回归问题,也就是预测
(2)缺点
         效率低,每一次分类都要对训练数据进行计算;对训练数据依赖度特别大,过拟合,欠拟合问题难以权衡;存在维数灾难问题

1.2 过拟合与欠拟合概念、原因以及解决方法

【过拟合】

(1)概念

         学习器把训练样本“学习”太好,将训练样本本身的特点当作所有样本的一般性质,导致泛化性能下降

(2)原因

         样本数量太少,采集的样本与真实值存在差异;应用场景与训练场景的分布不一致,数据不是同分布的

(3)解决方法 

          引入正则化项,限制模型参数的大小,防止其过于复杂; 提供更多的训练数据,有助于模型更好地学习数据的一般性规律,而不是过度拟合特定样本。

【欠拟合】

(1)概念

         对训练样本的一般性质尚未学好,泛化性也不好

(2)原因

         模型本身没有设计好;选对算法但是没有调好算法的超参数

(3)解决方法 

         使用更复杂的模型,例如增加神经网络的层数或使用更多的特征;增加训练轮次,使模型更好地适应数据。

1.3 判别式模型与生成式模型的概念以及分别列举相对应的算法

【判别式模型】

(1)概念

         判别式模型的主要目标是建模类别标签(类别判别函数),即对给定输入数据预测输出标签。 它关注在给定输入条件下预测输出标签的概率分布,而不考虑输入的分布。在分类问题中,判别式模型学习直接从输入到标签的映射。

(2)对应算法

         支持向量机(SVM)、logistic回归、决策树等。

【生成式模型】

(1)概念

         生成式模型的目标是建模整个联合概率分布,包括输入和输出。它不仅关注输入到输出的映射,还考虑了输入的分布。生成式模型可以用来生成与训练数据相似的新样本,并且可以通过边缘化来计算给定输入的条件分布。它们可以用于生成新的数据点。

(2)对应算法

         朴素贝叶斯等。

1.4 简述评估模型性能四个指标以及计算公式

TP:模型预测为正的正样本
TN:模型预测为负的负样本
FP:模型预测为正的负样本
FN:模型预测为负的正样本


准确率:分类器对样本的判定能力,将样本预测正为真实正,预测负为真实负的能力(值在0-1,越大越好)

(TP+TN)/(TP+TN+FP+FN)        正确预测的正反例数/总数


精确率,查准率(Precision):真实为正占预测为正的比例(值在0-1,越大越好)

TP/(TP+FP)        正确预测的正例数/预测正例总数

        
召回率,查全率(Recall),TPR:预测为正占实际为正的样本的比例(值在0-1,越大越好)

TP/(TP+FN)        正确预测的正例数/实例正例总数

        

F1 score:衡量二分类模型精确度的指标,是模型精准率和召回率的调和均值(值在0-1,越大越好)      

(2*Precision*Recall)/(Precision+Recall)         2 * (精确率 * 召回率) / (精确率 + 召回率)

1.5 PCA算法流程以及优缺点

【算法流程】

1.数据中心化

假设有m个n维数据点,构成一个m×n的矩阵X。首先,计算每个特征的均值,然后将每个数据点都减去对应特征的均值,从而实现数据中心化。

中心化后的数据矩阵:X_{\text{centered}} = X - \bar{X}

2.计算协方差矩阵

协方差矩阵反映了不同特征之间的线性关系。协方差矩阵C的元素Cij​表示第i个特征和第j个特征之间的协方差。

                                     C = \frac{1}{m-1} X_{\text{centered}}^T X_{\text{centered}}

3.特征值分解</

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

jmu xzh_0618

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值