机器学习复习（上）

isxhyeah

已于 2023-06-16 23:50:35 修改

阅读量1.6k

点赞数 3

分类专栏： # 机器学习复习🤖 文章标签：深度学习机器学习人工智能神经网络

于 2023-06-10 00:10:26 首次发布

本文链接：https://blog.csdn.net/isxhye/article/details/131136209

版权

本文介绍了过拟合和欠拟合的概念及降低过拟合的方法，如增加训练数据、正则化等。接着，阐述了10次10折交叉验证的原理和作用。讨论了预剪枝和后剪枝在决策树中的应用和差异，以及支持向量机中利用KKT条件分析的稀疏性。此外，还涉及K-means聚类的流程和优缺点，以及维数灾难和特征选择中的L1、L2范数。最后，解释了有监督学习和无监督学习的区别。

摘要由CSDN通过智能技术生成

严正声明：本文的答案是ChatGPT的回答，仅供参考，不代表就是正确答案！！！

2023年：

1.解释什么是过拟合和欠拟合，如何降低过拟合?

过拟合（overfitting）指的是一个模型在训练数据上表现很好，但在测试数据上表现不佳的现象。这是由于模型过于复杂，过度拟合训练数据，导致对新数据的泛化性能差。

欠拟合（underfitting）则指的是模型没有充分地学习训练数据中的模式和规律，因此在训练集和测试集上都表现不佳，泛化性能差。

为了解决这些问题，可以通过添加正则化项、采集更多的数据、提高模型复杂度或使用更好的特征工程等方法来改进模型，从而提高泛化性能。

以下是几种常用的方法来降低过拟合：

1.获得更多的训练数据: 使用更多的训练数据是解决过拟合问题最有效的手段，因为更多的样本能够让模型学习到更多更有效的特征，减小噪声的影响。

2.降维: 即丢弃一些不能帮助我们正确预测的特征。可以是手工选择保留哪些特征，或者使用一些模型选择的算法来帮忙（例如PCA）。

3.正则化: 正则化(regularization)的技术，保留所有的特征，但是减少参数的大小（magnitude），它可以改善或者减少过拟合问题。

4.集成学习方法: 集成学习是把多个模型集成在一起，来降低单一模型的过拟合风险。

2.什么是10次10折交叉验证？

10次10折交叉验证（10-fold cross-validation）是一种模型评估方法，常用于评估机器学习模型的性能。它将原始数据集分为10份，每次将其中9份作为训练数据，1份作为测试数据，重复10次，每次都将不同的一份作为测试数据。这样可以获得10个独立的模型评估结果，可以对模型评估的稳定性和泛化能力进行充分评估。

具体步骤如下：

1. 首先将数据集分成10份（可以是随机分配或者按顺序分配）。

2. 选择一份作为测试集，其余9份作为训练集。

3. 在训练集上训练模型，并在测试集上评估模型的性能（可以通过计算准确率、F1-score等指标）。

4. 重复步骤2-3，直到所有的测试集都被用作了一次测试集。

5. 计算10次评估结果的平均