机器学习的数据验证

最新推荐文章于 2023-08-09 08:54:41 发布

The_syx

最新推荐文章于 2023-08-09 08:54:41 发布

阅读量611

点赞数

文章标签：机器学习深度学习人工智能大数据 python

本文链接：https://blog.csdn.net/The_syx/article/details/109352095

版权

尽管验证过程无法直接发现问题所在，但有时该过程可以向我们表明模型的稳定性存在问题。

数据是维持机器学习的基础。无论机器学习和/或深度学习模型多么强大，它都永远无法完成我们想要对不良数据进行的处理。随机噪声（即，数据点，这使得很难看见的图案），在一定分类变量的低频，所述目标类别的低频率（如果目标变量是分类）和不正确的数值等只是一些方面的数据会弄乱模型。尽管验证过程无法直接发现问题所在，但该过程有时可以向我们表明模型的稳定性存在问题。

训练/验证/测试拆分

验证数据的最基本方法（即在测试模型之前调整超参数）是某人将对数据执行训练/验证/测试拆分的时间。一个典型的比率可能是80/10/10，以确保您仍然有足够的训练数据。用训练集训练模型后，用户将继续验证结果并使用验证集调整超参数，直到用户达到满意的性能指标为止。一旦完成此阶段，用户将继续使用测试集测试模型以预测和评估性能。

交叉验证

交叉验证是一种用于评估独立数据集上的统计预测模型的性能的技术。目的是确保模型和数据可以很好地协同工作。交叉验证是在训练阶段进行的，用户将评估模型是容易拟合数据还是过度拟合数据。用于交叉验证的数据必须来自目标变量的相同分布，否则我们可能会误以为模型在现实生活中的表现如何。

K折交叉验证

在这种情况下，我们希望在训练阶段保留尽可能多的数据，并且不冒险将有价值的数据丢失到验证集中，k折交叉验证会有所帮助。该技术将不需要训练数据放弃一部分用于验证集。在这种情况下，数据集被分为k个折叠，其中一个折叠将被用作测试集，其余的将被用作训练数据集，并且将按用户指定的次数重复n次。在回归中，结果的平均值（例如，RMSE，R-Squared等）将用作最终结果。在分类设置中，结果的平均值（即准确度，正确率，F1等）将作为最终结果。