matlab划分训练集验证和测试集代码_R语言k折交叉验证

weixin_39559071

于 2020-12-30 22:22:43 发布

阅读量713

点赞数

文章标签： matlab划分训练集验证和测试集代码

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_39559071/article/details/112264786

版权

原文链接：

R语言k折交叉验证tecdat.cn

“机器学习中需要把数据分为训练集和测试集，因此如何划分训练集和测试集就成为影响模型效果的重要因素。本文介绍一种常用的划分最优训练集和测试集的方法——k折交叉验证。”

k折交叉验证

K折交叉验证(k-fold cross-validation)首先将所有数据分割成K个子样本，不重复的选取其中一个子样本作为测试集，其他K-1个样本用来训练。共重复K次，平均K次的结果或者使用其它指标，最终得到一个单一估测。

这个方法的优势在于，保证每个子样本都参与训练且都被测试，降低泛化误差。其中，10折交叉验证是最常用的。

实例

在线性分类器与性能评价(R语言)中，我们将数据集随机抽取70%作为训练集，剩下30%作为测试集，通过线性回归的方法进行预测，通过ROC和AUC评价模型效果。现在，我们使用k折交叉验证的方法，选取最优的训练集和测试集，建立线性分类器并评价模型效果。

1、数据导入并分组。导入数据，并使用caret包中的createFolds()函数，根据标签列将数据分成10份。

2、选取最优训练集与测试集。构建for循环，得到十次交叉验证预测的AUC值。并纪录取值最大的一组，作为最优的训练集与测试集划分。

10次auc取值结果如下：

3、构建分类器并判断模型效果。根据前一步的结果，使用最优划分构建线性分类器并预测。绘制出测试集的ROC曲线。

线性分类器与性能评价(R语言)中随机选取训练集和测试集，最终测试集的AUC值仅为0.755，而本次我们通过k折交叉验证选取训练集和测试集，测试集AUC值达到0.936，可以看出模型效果提升显著。

weixin_39559071

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
matlab划分训练集验证和测试集代码_R语言k折交叉验证

原文链接：R语言k折交叉验证tecdat.cn“机器学习中需要把数据分为训练集和测试集，因此如何划分训练集和测试集就成为影响模型效果的重要因素。本文介绍一种常用的划分最优训练集和测试集的方法——k折交叉验证。”k折交叉验证K折交叉验证(k-fold cross-validation)首先将所有数据分割成K个子样本，不重复的选取其中一个子样本作为测试集，其他K-1个样本用来训练。共重复K次，平均K...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。