jmdx 计算机工程学院-机器学习 考试题型:简答题40分和计算题60分
目录
1.3 判别式模型与生成式模型的概念以及分别列举相对应的算法
1. 简答题(5题*8分)
1.1 请写出knn算法的流程以及优缺点
【算法流程】
(1)计算测试数据与各个训练数据之间的距离;
(2)按照距离的递增关系进行排序;
(3)选取距离最小的K个点;
(4)确定前K个点所在类别的出现频率;
(5)返回前K个点中出现频率最高的类别作为测试数据的预测分类
【优缺点】
(1)优点
可以处理分类问题,算法简单易懂;可以免去训练过程;KNN还可以处理回归问题,也就是预测
(2)缺点
效率低,每一次分类都要对训练数据进行计算;对训练数据依赖度特别大,过拟合,欠拟合问题难以权衡;存在维数灾难问题
1.2 过拟合与欠拟合概念、原因以及解决方法
【过拟合】
(1)概念
学习器把训练样本“学习”太好,将训练样本本身的特点当作所有样本的一般性质,导致泛化性能下降
(2)原因
样本数量太少,采集的样本与真实值存在差异;应用场景与训练场景的分布不一致,数据不是同分布的
(3)解决方法
引入正则化项,限制模型参数的大小,防止其过于复杂; 提供更多的训练数据,有助于模型更好地学习数据的一般性规律,而不是过度拟合特定样本。
【欠拟合】
(1)概念
对训练样本的一般性质尚未学好,泛化性也不好
(2)原因
模型本身没有设计好;选对算法但是没有调好算法的超参数
(3)解决方法
使用更复杂的模型,例如增加神经网络的层数或使用更多的特征;增加训练轮次,使模型更好地适应数据。
1.3 判别式模型与生成式模型的概念以及分别列举相对应的算法
【判别式模型】
(1)概念
判别式模型的主要目标是建模类别标签(类别判别函数),即对给定输入数据预测输出标签。 它关注在给定输入条件下预测输出标签的概率分布,而不考虑输入的分布。在分类问题中,判别式模型学习直接从输入到标签的映射。
(2)对应算法
支持向量机(SVM)、logistic回归、决策树等。
【生成式模型】
(1)概念
生成式模型的目标是建模整个联合概率分布,包括输入和输出。它不仅关注输入到输出的映射,还考虑了输入的分布。生成式模型可以用来生成与训练数据相似的新样本,并且可以通过边缘化来计算给定输入的条件分布。它们可以用于生成新的数据点。
(2)对应算法
朴素贝叶斯等。
1.4 简述评估模型性能四个指标以及计算公式
TP:模型预测为正的正样本
TN:模型预测为负的负样本
FP:模型预测为正的负样本
FN:模型预测为负的正样本
准确率:分类器对样本的判定能力,将样本预测正为真实正,预测负为真实负的能力(值在0-1,越大越好)(TP+TN)/(TP+TN+FP+FN) 正确预测的正反例数/总数
精确率,查准率(Precision):真实为正占预测为正的比例(值在0-1,越大越好)TP/(TP+FP) 正确预测的正例数/预测正例总数
召回率,查全率(Recall),TPR:预测为正占实际为正的样本的比例(值在0-1,越大越好)TP/(TP+FN) 正确预测的正例数/实例正例总数
F1 score:衡量二分类模型精确度的指标,是模型精准率和召回率的调和均值(值在0-1,越大越好)
(2*Precision*Recall)/(Precision+Recall) 2 * (精确率 * 召回率) / (精确率 + 召回率)
1.5 PCA算法流程以及优缺点
【算法流程】
1.数据中心化
假设有m个n维数据点,构成一个m×n的矩阵X。首先,计算每个特征的均值,然后将每个数据点都减去对应特征的均值,从而实现数据中心化。
中心化后的数据矩阵:
2.计算协方差矩阵
协方差矩阵反映了不同特征之间的线性关系。协方差矩阵C的元素Cij表示第i个特征和第j个特征之间的协方差。
3.特征值分解</