- 训练集,验证集,测试集
在训练集上训练数据,在验证集上评估数据.一旦找到了最佳模型参数,就在测试集上做最后一次验证.
为什么不是训练集与测试集,还要加个验证集呢?
原因在于:训练模型时总是要调节模型配置,这个调节过程需要使用模型在验证数据上的性能作为反馈信号,这个调节过程本质上就是一种学习:在某个参数空间中寻找良好的模型配置.因此如果将训练集与验证集合并为训练集,用来调节模型,会很快导致模型在合并后的训练集上过拟合.造成这一现象的关键是信息泄露.
为了衡量模型的范化能力,必修在一个完全不同的,前所未见的数据集上来评估模型,就是测试集.
2. 三种经典的评估方法
- 留出简单验证
- k折验证
- 带有打乱数据的k折验证
详见:http://sparkgis.com/2018/12/13/评估机器学习模型的几种方法(验证集的重要性)/
比较简单.
3.评估模型的注意点:
- 数据代表性
- 时间箭头
- 数据冗余