1. 什么是交叉验证
将原始数据等分为若干组,一部分做为训练集来训练模型,另一部分做为验证集来测试模型的泛化性能。
2. 为什么要做交叉验证
在机器学习领域,模型在训练集上的效果固然很重要,但模型的泛化性能直接影响模型的可用性。此时,就需要将数据一分为二,一部分用于训练,一部分用于测试泛化性能。因此,交叉验证具有如下好处:
- 可以用于评估模型的预测性能,尤其是训练好的模型在新数据上的表现,可以在一定程度上减小过拟合。
- 可以从有限的数据中获取尽可能多的有效信息。
3. 什么时候需要交叉验证
交叉验证主要用于数据不是很充足的时候。
- 如果数据样本量小于一万条,就会采用交叉验证来训练、优化、选择模型。
- 如果样本大于一万条的话,一般会随机的把数据分成三份,一份为训练集(Training Set),一份为验证集(Validation Set),最后一份为测试集(Test Set)。用训练集来训练模型,用验证集来评估模型预测的好坏和选择模型及其对应的参数。把最终得到的模型用于测试集,最终决定使用哪个