逻辑如下:
泛化误差能够衡量一个模型的性能好坏、泛化能力。但是,泛化误差不能直接获得。
模型的评估方法
怎么办?采用测试集。使用测试误差近似泛化误差。要求测试集尽可能于训练集互斥。
接下来就是,如何将数据集划分为训练集和测试集。
测试集:用于近似评估模型的泛化能力。
验证集:模型选择和调参。
既然有测试集去近似估计模型的泛化能力,那么,评估方法有哪些?
比较检验
通过性能度量,怎么对这些结果进行比较?比较大小吗?不。
原因有三:
1、我们希望比较的是泛化性能,但是通过实验评估得到的是在测试集上的性能,两者的对比结果可能不一样。【近似最多只能是近似,和groud truth还是有很大差距的。】
2、测试集的锅。我们选择的测试集存在多样性:如不同大小的测试集以及测试集中测试用例的差异。
3、学习算法的锅。学习算法本身具有随机性。这样的算法在同一个测试集上,不同次运行得到的结果可能不同。
那怎么办?统计假设检验(hypothesis test)为我们进行学习器性能比较提供了重要依据。