使用交叉验证在 scikit-learn 中选择最佳模型

最新推荐文章于 2024-11-02 16:28:26 发布

dataschool

最新推荐文章于 2024-11-02 16:28:26 发布

阅读量450

点赞数 3

文章标签： scikit-learn python

本文链接：https://blog.csdn.net/dataschool/article/details/141183974

版权

本视频将继续探讨机器学习模型评估方法，并介绍一种更强大的方法：交叉验证。

回顾：

上一视频中，我们学习了数据科学流程，包括使用 Pandas 读取数据、使用 Seaborn 进行可视化，以及使用 scikit-learn 训练和解释线性回归模型。我们还涵盖了回归的评估指标以及使用训练测试分割方法进行特征选择。

问题：

核心内容：

训练测试分割方法的缺点： 测试精度是样本外精度的高方差估计，这意味着测试精度会根据测试集中包含的特定样本而发生很大变化。
交叉验证： 交叉验证是一种更稳健的模型评估方法，它将数据分成多个折叠，每个折叠都被用作测试集，而其他折叠被用作训练集。通过多次训练和测试，交叉验证可以提供对样本外性能的更可靠估计。
交叉验证的应用：
选择调整参数： 通过交叉验证，我们可以找到模型参数的最优设置，使模型在样本外数据上的性能最佳。
模型选择： 我们可以比较不同模型在交叉验证下的性能，选择最适合数据的模型。
特征选择： 交叉验证可以帮助我们选择对模型预测最有贡献的特征，提高模型的泛化能力。
交叉验证的改进： 可以尝试不同的交叉验证方法，例如留一法交叉验证和分层交叉验证，以进一步提高评估的准确性和可靠性。

视频示例：