Python sklearn KFold 生成交叉验证数据集

最新推荐文章于 2024-04-21 18:42:26 发布

Ichimaru_Gin_

最新推荐文章于 2024-04-21 18:42:26 发布

阅读量1.7w

点赞数 4

分类专栏：机器学习

本文链接：https://blog.csdn.net/Ichimaru_Gin_/article/details/79455578

版权

本文介绍了在需要保持样本分布比例一致时，如何利用Python的sklearn库自定义实现KFold交叉验证，并将生成的交叉验证数据集保存为CSV文件。同时，作者分享了在理解和使用KFold过程中遇到的一个常见误区，即误将train和test理解为子数据集索引，而非原始数据集的样本索引。

摘要由CSDN通过智能技术生成

源起：

1.我要做交叉验证，需要每个训练集和测试集都保持相同的样本分布比例，直接用sklearn提供的KFold并不能满足这个需求。

2.将生成的交叉验证数据集保存成CSV文件，而不是直接用sklearn训练分类模型。

3.在编码过程中有一的误区需要注意：

这个sklearn官方给出的文档

>>> import numpy as np
>>> from sklearn.model_selection import KFold

>>> X = ["a", "b", "c", "d"]
>>> kf = KFold(n_splits=2)
>>> for train, test in kf.split(X):
...     print("%s %s" % (train, test))
[2 3] [0 1]
[0 1] [2 3]

我之前犯的一个错误是将train，test理解成原数据集分割成子数据集之后的子数据集索引。而实际上，它就是原始数据集本身的样本索引。

源码：

# -*- coding:utf-8 -*-
# 得到交叉验证数据集，保存成CSV文件
# 输入是一个包含正常恶意标签的完整数据集，在读数据的时候分开保存到datasetBenign，datasetMalicious
# 分别对两个数据集进行KFold，最后合并保存

from sklearn.model_selection import KFold
import csv

def writeInFile(benignKFTrain, benignK