数据切分与拟合问题

最新推荐文章于 2023-03-05 20:41:54 发布

梚枫_

最新推荐文章于 2023-03-05 20:41:54 发布

阅读量465

点赞数

分类专栏： Python数据挖掘文章标签： python

本文链接：https://blog.csdn.net/Air_x/article/details/106138284

版权

18 篇文章 2 订阅

订阅专栏

数据切分

一部分为训练集、一部分为测试集

m个样本，令k=m，作为cv的特例。只有一种划分方法，即每个测试集只有一条数据。

对D中的m个数据随机取样，接着将数据放回原数据集继续取样，重复m次，产生一个新的数据集D‘。最后用未取到的数据作为测试集

划分为K个互斥子集，用k-1作为训练集，剩下一个为测试集，最终每个子集都会作为测试集，其余子集作为训练集，共进行k次建模，最终得到测试结果的均值。

Grid Search 是一种穷举的调参方法。通过循环遍历的方式，把每一种候选的参数组合，全部调试一遍。最后表现效果最好的参数就是最终的结果。
嵌套循环方式实现：（每次调参时，数据集要保持一致性）。为了避免test data既用于检验模型参数，又用于测试模型好坏，会提高模型结果的评分。
sklearn.model_selection.GridSearchCV(estimator,param_grid,cv)
- estimator：估计器对象
- param_grid：估计器参数，参数名称（字符串）作为key，要测试的参数列表作为value的字典，或这样的字典构成的列表
- cv：整型，指定K折交叉验证
方法
- fit：输入训练数据
- score：准确率
- best_score_：交叉验证中测试的最好的结果
- best_estimator：交叉验证中测试的最好的参数模型
- best_params_：交叉验证中测试的最好的参数
- cv_results：每次交叉验证的结果

欠拟合：欠拟合指的是数据没有训练完成，得出来的训练模型对训练集拟合效果不好。对于测试集的操作效果也不高
过拟合：过拟合指的是数据进行过度训练，得出来的训练模型虽然对于训练数据来说，拟合地非常好，但是对于测试数据，将会有糟糕的表现，原因是过度地拟合将会把噪声也极大地引入。

关注