一、说明
中号机器学习模型在训练后必须使用测试集进行评估。我们这样做是为了确保模型不会过度拟合,并确保它们适用于现实生活中的数据集,与训练集相比,现实数据集的分布可能略有偏差。
但为了使您的模型真正稳健,仅仅通过训练/测试分割进行评估可能还不够。
例如,假设您有一个由两个类的样本组成的数据集。数据集前 80% 中的大多数样本属于 A 类,而其他 20% 中的大多数样本属于 B 类。如果您采用简单的 80/20 保留分割,那么您的数据集将具有截然不同的分布——评估可能会得出错误的结论。
中号机器学习模型在训练后必须使用测试集进行评估。我们这样做是为了确保模型不会过度拟合,并确保它们适用于现实生活中的数据集,与训练集相比,现实数据集的分布可能略有偏差。
但为了使您的模型真正稳健,仅仅通过训练/测试分割进行评估可能还不够。
例如,假设您有一个由两个类的样本组成的数据集。数据集前 80% 中的大多数样本属于 A 类,而其他 20% 中的大多数样本属于 B 类。如果您采用简单的 80/20 保留分割,那么您的数据集将具有截然不同的分布——评估可能会得出错误的结论。