模型评估：训练、验证、测试

最新推荐文章于 2025-02-06 17:40:15 发布

Siumai

最新推荐文章于 2025-02-06 17:40:15 发布

阅读量4.2k

点赞数 2

分类专栏：深度学习 Python 文章标签：深度学习机器学习

本文链接：https://blog.csdn.net/qq_43749739/article/details/106643858

版权

Python 同时被 2 个专栏收录

13 篇文章

订阅专栏

深度学习

8 篇文章

订阅专栏

本文深入探讨了机器学习中数据集的划分方法，包括训练集、验证集和测试集的作用，以及如何通过留出验证、K折交叉验证和乱序K折交叉验证来评估模型性能。同时，文章还讨论了在数据集划分过程中需要注意的问题。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

一、数据集的划分

（一）学习目标

在理想情况下，通过机器学习，我们希望可以获得一个拥有出色泛化能力的模型。即能够在前所未见的数据样本上举一反三，正确分析预测。

（二）假设

1、全部数据集作为训练集

只要选取模型适当，在若干轮迭代轮次后一定能够得到在训练集上性能优越的模型。但其泛化能力不得而知。

2、划分为训练集和测试集

增加了测试集部分，在训练集上训练模型，在测试集上评估模型并作为泛化能力的指标。但总是基于同一个测试集进行参数调整，即使可以进一步得到在测试集上表现优秀的模型，但模型在测试集上过拟合不可避免（Information Leak）。

（三）训练集、验证集、测试集

因此，为了获得模型性能的可靠评价，将数据划分为训练集、验证集、测试集三个部分是一种合理的方式。

二、经典评估方法

（一）留出验证(Hold-out Validation)

1、介绍

Hold-out Validation是最简单、经典的模型评估方式。首先将数据集划分为训练集和测试集，再随机打乱训练集数据并划分为训练集和验证集。

2、实现

def holdout_val(x, y):
    size_of_val = x.shape[0] // 4
    
    seed = np.random.randint(0, 100, 1).squeeze()
    
    np.random.seed(seed)
    np.random.shuffle(x)
    np.random.seed(seed)
    np.random.shuffle(y)
    
    val_x = x[:size_of_val]
    val_y = y[:size_of_val]
    
    train_x = x[size_of_val:]
    train_y = y[size_of_val:]
    
    model = build_model(x.shape[1])
    
    his = model.fit(train_x, train_y, validation_data=(val_x, val_y), epochs=100, batch_size=16, verbose=0)
    val_mae = his.history['val_mae'][-1]    
    print("Validation MAE: " + str(val_mae))

（二）Ｋ折交叉验证(K-flod Validation)

1、介绍

将训练集划分为Ｋ个不相交子集，执行Ｋ次验证，每个子集依次作为验证集，取Ｋ次验证性能的均值作模型性能评估。

２、实现

def kfold_val(x, y, k=4, epochs=200):
    fold_size = x.shape[0] // k
    res = np.zeros((k, epochs))
    
    for i in range(k):
        val_x = x[i * fold_size : (i + 1) * fold_size]
        val_y = y[i * fold_size : (i + 1) * fold_size]
        
        train_x = np.concatenate([x[:i * fold_size], x[(i + 1) * fold_size:]], axis=0)
        train_y = np.concatenate([y[:i * fold_size], y[(i + 1) * fold_size:]], axis=0)
        
        model = build_model()
        his = model.fit(train_x, train_y, epochs=epochs, batch_size=16, validation_data=(val_x, val_y), verbose=0)
        
        res[i] = his.history['val_mae']
        
    return res.mean(axis=0)

（三）乱序K折交叉验证(Iterated K-fold Validation with shuffling)

1、介绍

执行P次K折交叉验证，每次K折交叉验证前将数据集顺序打乱。K * P次验证性能的均值作为模型性能指标。在小样本学习时可以更可靠的评估模型。

三、注意事项

1、为了使数据具备更好的代表性，应打乱数据在进行分割

2、数据与时序相关时，先做分割，再打乱顺序

3、确保划分各集合数据独立

四、训练集与验证测试集异分布模型

模型划分为：训练集、训练—验证集、验证集、测试集，则有：

1、贝叶斯误差和训练误差的差值视为可避免偏差(Avoidable Bias)
2、训练误差与训练-验证误差的差值视为方差(Variance)
3、训练-验证误差与验证误差的差值视为数据不匹配误差(Data Mismatch)
4、验证误差和测试误差的差值视为验证集过拟合误差(Degree of overfitting on dev-set)