当建立一个模型时,首先要考虑这个模型在采用训练集数据时能否建立。可以引入评价模型性能的定量指标。从评价的角度来看,我们可以把模型的类别分组:分类、打分、概率评估、排名和聚类。
对大多数模型评价来说,我们只是想计算一个或者两个总得分,从而判断模型是否有效。为了判断给定得分的高低,必须求助于一些理想模型:空值模型、贝叶斯比率模型和最优单变量模型。
空值模型:空值模型是你试图超越的最佳的具有非常简单形式的常见模型。两个最典型的空值模型就是单常数模型(对所有的情形都回复相同答案)和独立模型(不记录任何输入和输出之间重要的相互联系和作用)。我们使用空值模型确立所希望性能的下界,所以我们通常对照最优空值模型。例如,在分类问题上,空值模型总是会返回最常见的类别(因为这是简单且最不易出错的猜测);在打分模型上,空值模型常常是所有结果的平均值(因为其有最小方差)。其想法是这样:如果你的结果不优于空值模型,那么你就不要提交结果值。请注意,做到与最优空值模型一样好可能会很难,因为尽管空值模型很简单,但是它能优先知道要测试的所有项的总体分布。我们总是认为做对照的空值模型时所有可能的空值模型中最优的。
贝叶斯比率模型是给定的手头数据下可能最优的模型,它是一个完美的模型,仅在具有完全相同的已知事实集合(相同的X)而产生不同输出结果(不同的Y)的多个实例时才会出错。构建贝叶斯比率模型不总是实用的,但是我们用其作为一个模型评价得分的上限。如果觉得我们的模型显著高于空值模型比率且接近于贝叶斯比率,那么我们就可停止模型调优。当有很多数据而有很少的建模特征时,我们可估计贝叶斯误差率,另一个估计贝叶斯比率的方法是找几个不同的人给你相同的数据小样本打分,得到的不一致比率可以作为贝叶斯比率的一个估计。
单变量模型:把任意一个复杂的模型与你可用的最优单变量模型作比较,如果一个复杂模型不能优于来自于你训练数据的、可用的最优单变量模型,那么它就得不到认可。