机器学习模型评估之“留出法(hold-out)”

最新推荐文章于 2024-07-01 17:06:16 发布

天雨龙马

最新推荐文章于 2024-07-01 17:06:16 发布

阅读量4.3k

点赞数

分类专栏：人工智能文章标签：模型评估 d

人工智能专栏收录该内容

27 篇文章 2 订阅

订阅专栏

留出法(hold-out)
直接将数据集D划分为两个互斥的集合，其中一个集合作为训练集S，另外一个作为测试集T，即D=S∪T,S∩T=0.在S上训练出模型后，用T来评估其测试误差，作为对泛化误差的评估
需要注意的问题：
1.训练/测试集的划分要尽可能的保持数据分布的一致性，避免因数据划分过程引入额外的偏差而对最终结果产生影响
2.在给定训练/测试集的样本比例后，仍然存在多种划分方式对初始数据集D进行划分，可能会对模型评估的结果产生影响。因此，单次使用留出法得到的结果往往不够稳定可靠，在使用留出法时，一般采用若干次随机划分、重复进行实验评估后取得平均值作为留出法的评估结果
3.此外。我们希望评估的是用D训练出的模型的性能，但是留出法需划分训练/测试集，这就会导致一个窘境：若另训练集S包含大多数的样本，则训练出的模型可能更接近于D训练出的模型，但是由于T比较小，评估结果可能不够稳定准确；若另测试集T包含多一些样本，则训练集S与D的差别更大，被评估的模型与用D训练出的模型相比可能就会有较大的误差，从而降低了评估结果的保真性（fidelity）。因此，常见的做法是：将大约2/3~4/5的样本用于训练，剩余样本作为测试
4.一般而言。测试集至少应包含30个样例
实例：数据集包含1000个样本，其中500个正例、500个反例，将其划分为包含70%样本的训练集和30%的样本测试集用于留出法评估，试估算有多少划分方式
{C_500150}2

天雨龙马

关注

0
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
机器学习模型评估之“留出法(hold-out)”

留出法(hold-out)直接将数据集D划分为两个互斥的集合，其中一个集合作为训练集S，另外一个作为测试集T，即D=S∪T,S∩T=0.在S上训练出模型后，用T来评估其测试误差，作为对泛化误差的评估需要注意的问题：1.训练/测试集的划分要尽可能的保持数据分布的一致性，避免因数据划分过程引入额外的偏差而对最终结果产生影响2.在给定训练/测试集的样本比例后，仍然存在多种划分方式对初始数据集D进...
复制链接

扫一扫

专栏目录