datawhale 11月学习——水很深的深度学习：机器学习基础_机器学习模型在测试集上的误差-CSDN博客

本文链接：https://blog.csdn.net/qq_40990057/article/details/121445252

本节复习了机器学习的基本概念，包括交叉验证，误差的来源和分类等，也包括机器学习基本的两种分类：有监督和无监督。
随后回顾了有监督和无监督学习常见的基本模型。

1 机器学习基本概念

可以参照前一节深度学习概述和数学基础中的有关内容

典型为有监督和无监督

在这里插入图片描述

在训练模型时，需要划分训练集、验证集和测试集。有时也不划分验证集（如果数量很少）
在这里插入图片描述

上述划分是基于交叉验证的思路：

K折重复多次，每次重复中产生不同的分割
基本思路：将训练集划分为K份，每次采用其中K-1份作为训练集，另外一份作为验证集，在训练集上学得函数后，然后在验证集上计算误差——K折交叉验证
留一交叉验证(Leave-One-Out)

误差是指算法实际预测输出与样本真实输出之间的差异。

由于我们无法知道总体样本如何，所以我们只能尽量最小化训练误差，导致训练误差和泛化误差有可能存在明显差异。

此处可以参考先前的学习，集成模式中分析了误差的组成。可通过公式推导，得出模型的误差为偏差+方差。

在这里插入图片描述

过拟合是指模型能很好地拟合训练样本，而无法很好地拟合测试样本的现象，从而导致泛化性能下降。为防止“过拟合”，可以选择减少参数、降低模型复杂度、正则化等

欠拟合是指模型还没有很好地训练出数据的一般规律，模型拟合程度不高的现象。为防止“欠拟合”，可以选择调整参数、增加迭代深度、换用更加复杂的模型等

下图展示了回归任务上的过拟合和欠拟合。
在这里插入图片描述
分类任务上的过拟合和欠拟合。

误差和偏差有一个trade-off的关系。

在这里插入图片描述

在具体的应用中，可以参考下面sklearn的这个图来判断任务的种类。
在这里插入图片描述

分为分类问题和回归问题
常见的模型有

除了单一模型外，还有集成模型，关于集成的目的和意义可以参考先前的笔记集成模式，用多个低偏差的学习器进行集成来降低模型的方差，或者利用多个低方差学习器进行集成来降低模型的偏差。

最基础常见的集成模型是随机森林。
在这里插入图片描述

无监督学习的常见问题有聚类和降维