机器学习基本名词含义？

最新推荐文章于 2024-08-30 16:54:17 发布

九九jiujiu

最新推荐文章于 2024-08-30 16:54:17 发布

阅读量156

点赞数

文章标签：机器学习 python 聚类

本文链接：https://blog.csdn.net/qq_52862974/article/details/130653904

版权

训练集（training set）：机器学习模型用于训练和学习的数据的集合，通常训练集是原始数据集的一部分，用于训练模型参数。模型通过训练集来学习数据的特征并产生一个模型，以便在之后的预测中使用。

验证集（validation set）：在模型评估与选择中用于评估测试的数据集，通常是从训练数据中划分出来的，基于验证集上的性能进行模型选择和调参。

测试集（testing set）：用于评估模型最终性能的数据集。通常从原始数据中划分出来，与训练集和验证集互不重叠。评估模型的泛化能力（模型适用于新样本的能力），并判断模型是否足够准确和鲁棒。

泛化能力（generalization）：模型适用于新样本的能力。具有强泛化能力的模型能很好的适用于整个样本空间。一般来说，训练样本越多，得到的关于总体的信息越多，则越有可能通过学习获得具有强泛化能力的模型。

根据训练数据是否具有标记信息，学习任务可大致分成两大类：监督学习和无监督学习。分类和回归是有监督学习的代表，聚类是无监督学习的代表。

错误率，分类错误的样本数占样本总数的比例。即若在m个样本中有a个样本分类错误，即错误率为E＝a/m

精度，相应的1-a/m称为精度，即精度＝1-E

误差：

学习器在训练集上的误差称为“训练误差”或“经验误差”；

在新样本上的误差称为“泛化误差”或“置信误差”，

把学习器在实际预测输出与样本的真实输出之间的差异称为“误差”。

显然我们希望得到泛化误差强的学习器，但在训练集上表现很好的学习器，并不能说明在新样本上能表现的很好，即泛化能力差。

风险:

模型与真实结果之间的误差称为风险，更严格的说，误差的累积叫做风险。

经验风险:

使用模型在样本数据上的分类结果与真实结果之间的差值来逼近经验风险。

为什么模型在样本集上轻易达到100％的正确率，在真实分类时结果不好，即推广能力差？

因为模型选择了一个足够复杂的分类函数（VC维很高），能够精确地记住每一个样本，但对样本之外的数据分类错误。经验风险最小化原则只在这占比很小的样本上做到没有误差，不能保证在更大的样本上也没有误差。

泛化误差界:真实风险应该由两部分内容刻画，一是经验风险（代表了分类器在给定样本上的误差），二是置信风险（代表了在多大程度上可以信任分类器在未知样本上的分类结果）。由于置信风险没法精确计算，只给出一个估计区间，使得误差只能计算上界，无法计算准确值。

过拟合（over fitting）：当学习器把训练样本学的太好了的时候，很可能已经把训练样本自身的一些特点当作了所有潜在样本都具有的一般性质，这样就会导致泛化能力下降。

欠拟合（under fitting）：对训练样本的一般性质尚未学好。

有多种因素可以导致过拟和，其中最常见的情况是由于学习能力过于强大，以至于把训练样本所包含的不太一般的特性都学到了，而欠拟合通常是由于学习能力低下而造成的。

克服措施：过拟合无法彻底避免，只能缓解或减小风险；欠拟合可以通过在决策树中扩展分支，在神经网络中增加训练轮数等方式。

理想的解决方案是对候选模型的泛化误差进行评估，然后选择泛化误差最小的那个模型。

此时就需要通过实验测试来对学习器的泛化误差进行评估，并进而作出选择，也就是使用测试集来测试学习器对新样本的判别能力，然后以测试集上的测试误差作为泛化误差的近似。

假设测试样本也是从样本真实分布中独立同分布采样而得，但测试集应尽可能的与训练集互斥（即测试样本尽量不在训练集中出现，未在训练集中使用过）。

留出法，将数据集D直接划分为两个互斥的集合，其中一个集合作为训练集S，另一个作为测试集T。训练集/测试集的划分要尽可能保持数据分布的一致性，避免因数据划分的过程引入额外的偏差而对最终结果产生影响。

交叉验证法，又称K折交叉验证。

先将数据集划分成K个大小相近的互斥子集，每个子集都尽可能地保持数据分布的一致性（分层采样），然后每次用K-1个子集的并集作为训练集，余下的子集作为测试集。这样就得到了K组训练集、测试集，从而进行K次训练的测试，最后返回K个测试结果的均值，显然K折交叉验证法评估结果的稳定性和保真性很大程度上取决于K值。一般K取10或5、20等。

为减小因样本划分不同而引入的差别，K折交叉验证通常要随机使用不同的划分重复P次，最终的评估结果是这P次K折交叉验证结果的均值。

假定数据集D中包含m个样本，若令k＝m则得到了交叉验证法的一个特例:留一法。留一法使用的训练集与初始数据集相比只少了一个样本，因此在绝大多数情况下，留一法中被实际评估的模型与期望评估的用D训练出的模型很相似，因此它的评估结果往往比较准确。

自助法，以自助采样法为基础（有放回抽样，重复抽样），自助法在数据集小，难以有效划分训练/测试集中很有用。但它改变了初始数据集的分布，这会引入估计误差，因此在初始数据量足够时，留出法和交叉验证法更常用。

九九jiujiu

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
打赏
0
评论
机器学习基本名词含义？

训练集（training set）：机器学习模型用于训练和学习的数据的集合，通常训练集是原始数据集的一部分，用于训练模型参数。模型通过训练集来学习数据的特征并产生一个模型，以便在之后的预测中使用。验证集（validation set）：在模型评估与选择中用于评估测试的数据集，通常是从训练数据中划分出来的，基于验证集上的性能进行模型选择和调参。测试集（testingset）：用于评估模型最终性能的数据集。通常从原始数据中划分出来，与训练集和验证集互不重叠。评估模型的泛化能力（模型适用于新样本的能力）
复制链接

扫一扫