5折交叉验证_第51集 python机器学习:分层K折交叉验证及其他方式

由于出现类似鸢尾花数据集这种分段数据可能简单的交叉验证无法适用,所以这里引用了分层K折交叉验证。在分层交叉验证中,我们划分数据,使得每个折中类别之间的比例整数与数据集中的比例相同,如下图所示:

mglearn.plots.plot_stratified_cross_validation()

606c3f2a2fa661bf4f04a75a774368bb.png

当数据按照类别标签排序时,标准交叉验证和分成交叉验证的对比

适用分层交叉验证可以使得具有明显分成的数据集在分成的时候各层数据在各个模型中都存在,适用分成K折交叉验证来验证一个分类器,通常要比交叉验证的效果要好,因为它可以对泛化性能做出更加可靠的评估(使用简单的k折交叉验证是,有可能某个折中只有样本A而无样本B,从而使得该模块的精度预测为0)。

对于回归问题,scikit-learn默认使用标准k折交叉验证,也可以尝试让每个折表示回归的目标的不同取值,但并不是一种常用的策略,也会让大多数用户感到意外。

对交叉验证的更多控制:我们之前看到,可以利用cv来参数来调节cross_val_score所使用的折数,但scikit-learn允许提供一个交叉验证分类器(cross_validation spliter)作为cv参数,来对数据划分过程做更加精细的控制。对于大多数使用场景而言,回归问题默认的k折交叉验证与分类问题的分层k折交叉验证的表

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
K折交叉验证是一种常用的评估机器学习模型性能的方,可以有效地避免过拟合和欠拟合的问题。具体来说,K折交叉验证数据集分成K个相等的子,每个子依次作为验证,其余K-1个子作为训练,这样就可以得到K个模型的性能指标,最终取平均值作为模型的性能指标。 Python中可以使用scikit-learn库中的KFold函数实现K折交叉验证。以下是一个简单的例子: ```python from sklearn.model_selection import KFold from sklearn.linear_model import LinearRegression from sklearn.datasets import load_boston # 加载波士顿房价数据集 boston = load_boston() X, y = boston.data, boston.target # 定义K折交叉验证器 kf = KFold(n_splits=5) # 定义线性回归模型 model = LinearRegression() # 进行K折交叉验证,并输出每个模型的得分 for train_index, test_index in kf.split(X): X_train, X_test = X[train_index], X[test_index] y_train, y_test = y[train_index], y[test_index] model.fit(X_train, y_train) score = model.score(X_test, y_test) print(score) ``` 在上述代码中,我们首先加载了波士顿房价数据集,然后定义了一个5折交叉验证器。接着,我们定义了一个线性回归模型,并使用KFold函数进行K折交叉验证。在每一次交叉验证中,我们将数据集分成训练和测试,然后使用线性回归模型进行训练和预测,并输出每个模型的得分。最终,我们可以将这些得分取平均值作为模型的性能指标。 希望这个例子可以帮助你理解K折交叉验证实现
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值