交叉验证_西瓜书_模型验证篇:K折交叉验证法

交叉验证是一种重要的模型验证方法,用于评估不同学习模型的预测性能。通过随机划分数据成K份,每次使用K-1份训练模型并用剩余1份进行测试,重复K次得到K个评估值。在P次K折交叉验证中,这一步骤会执行P次,最终取所有评估值的均值作为模型性能的代表。该方法在模型调优过程中扮演关键角色,确保了模型的稳定性和泛化能力。
摘要由CSDN通过智能技术生成

a780ae686a874702d89209be9d438815.png

交叉验证法,主要作用是用于评估比较不同学习模型的预测性能,可在模型调优的过程中发挥一定的作用。

P次K折交叉验证法 实现过程:

1、原始数据打乱,使得数据划分为随机划分。

2、将数据划分为K份,保证每份数据不重叠,全部数据不遗漏。分类任务中,划分过程尽量保证每份预测的类别比例相同。

3、每次选取K-1份为训练集,剩下的一份为测试集,用训练集来训练模型,测试集来评估模型,获得评估值。重复K次,即可获得K个模型性能评估值:

db4ea19b5565d43a776d4ab8d2aab7fd.png

4、将2、3两步重复P次,即为P次K折交叉验证法。获得性能评估值为P*K个,取其均值作为该学习模型的性能评价值:

7daf45cf71cb62a8a1792f26748c1fbe.png

python代码实现:

from random import shuffle
import pandas as pd

class K_flod():
    def __init__(self,data,Label,k):
        self.data = data
        self.Label = Label
        self.k = k
    
    def LabelDict(self):
        Labellist = self.data[self.Label].unique()
        Dict = {i:self.data[self.data[self.Label] == i ] for i in Labellist}
        for key in Dict.keys():
            Dict[key] = Dict[key].reset_index(drop = True)
            Dict[key] = self.dataCut(Dict[key])
        return Dict
    
    def dataCut(self,df):
        mod,aliquot = len(df)%self.k,len(df)//self.k
        dividNum_list = [aliquot]*self.k
        for i in range(mod):
            dividNum_list[i] += 1
        df_list = [None]*self.k
        start_index,end_index = 0,0
        for i in range(self.k):
            end_index += dividNum_list[i]
            df_list[i] = df.loc[start_index:end_index-1]
            start_index = end_index
        return df_list
    
    def random(self):
        index = [i for i in self.data.index]
        shuffle(index)
        self.data = self.data.loc[index].reset_index(drop = True)
    
    def divide(self):
        self.random()
        df_dict = self.LabelDict()
        divide_dict = {}
        for i in range(self.k):
            temp = pd.DataFrame()
            for key in df_dict.keys():
                if len(df_dict[key][i])>0:
                    temp = temp.append(df_dict[key][i])
            divide_dict[i] = temp
        return divide_dict

if __name__ == "__main__":
    test_df = pd.DataFrame()
    test_df["Name"],test_df["Label"] = list("ABCDEFGHIJ"*5),[1,2]*25
    Label,k="Label",3
    flod = K_flod(test_df,Label,k)
    dict_temp = flod.divide()
    print(dict_temp)

'''
得到分成K个数据集得字典,即训练验证子集
'''
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值