python 交叉验证后获取模型_机器学习基础：(Python)训练集测试集分割与交叉验证...

最新推荐文章于 2023-09-13 19:00:31 发布

weixin_39970668

最新推荐文章于 2023-09-13 19:00:31 发布

阅读量942

点赞数

文章标签： python 交叉验证后获取模型

本文介绍了Python中如何进行训练集测试集分割与交叉验证，以防止模型过度拟合和欠拟合。通过实例展示了如何使用train_test_split和交叉验证方法K-Folds和LOOCV，探讨了不同子集数量对模型的影响，并提供了交叉验证后的模型评估方法。

摘要由CSDN通过智能技术生成

摘要：本文讲述了如何用Python对训练集测试集进行分割与交叉验证。

在上一篇关于Python中的线性回归的文章之后，我想再写一篇关于训练测试分割和交叉验证的文章。在数据科学和数据分析领域中，这两个概念经常被用作防止或最小化过度拟合的工具。我会解释当使用统计模型时，通常将模型拟合在训练集上，以便对未被训练的数据进行预测。

在统计学和机器学习领域中，我们通常把数据分成两个子集：训练数据和测试数据，并且把模型拟合到训练数据上，以便对测试数据进行预测。当做到这一点时，可能会发生两种情况：模型的过度拟合或欠拟合。我们不希望出现这两种情况，因为这会影响模型的可预测性。我们有可能会使用具有较低准确性或不常用的模型(这意味着你不能泛化对其它数据的预测)。

什么是模型的过度拟合(Overfitting)和欠拟合(Underfitting)？

过度拟合

过度拟合意味着模型训练得“太好”了，并且与训练数据集过于接近了。这通常发生在模型过于复杂的情况下，模型在训练数据上非常的准确，但对于未训练数据或者新数据可能会很不准确。因为这种模型不是泛化的，意味着你可以泛化结果，并且不能对其它数据进行任何推断，这大概就是你要做的。基本上，当发生这种情况时，模型学习或描述训练数据中的“噪声”，而不是数据中变量之间的实际关系。这种噪声显然不是任何新数据集的一部分，不能应用于它。

欠拟合

与过度拟合相反，当模型欠拟合的时候，它意味着模型不适合训练数据，因此会错过数据中的趋势特点。这也意味着该模型不能被泛化到新的数据上。你可能猜到了，这通常是模型非常简单的结果。例如，当我们将线性模型(如线性回归)拟合到非线性的数据时，也会发生这种情况。不言而喻，该模型对训练数据的预测能力差，并且还不能推广到其它的数据上。

值得注意的是，欠拟合不像过度拟合那样普遍。然而，我们希望避免数据分析中的这两个问题。你可能会说，我们正在试图找到模型的欠拟合与过度拟合的中间点。像你所看到的，训练测试分割和交叉验证有助于避免过度拟合超过欠拟合。

训练测试分割

正如我之前所说的，我们使用的数据通常被分成训练数据和测试数据。训练集包含已知的输出，并且模型在该数据上学习，以便以后将其泛化到其它数据上。我们有测试数据集(或子集)，为了测试模型在这个子集上的预测。

快速地看一下导入的库：

Pandas —将数据文件作为Pandas数据帧加载，并对数据进行分析