1. 分离器对训练集进行分类而得出的误差率并不能很好反映分类器未来的工作性能。
2. 当训练和测试数据有限时,衡量一种学习方案使用在某一数据集上的误差率的方法:
a. cross-validation 交叉验证 10-fold
b. leave-one-out 留一法
c. bootstrap 自引导法
3. 预测概率
a. 二次损失函数
b. 信息损失函数
4. 计算成本
使用分类正确率进行评估是在默认误差成本相同的假设前提下的。对预测错和错预测成对的代价是不同的。
上升图、ROC曲线、召回率-精确率曲线
5. 评估数值预测
均方误差(mean-squared error)
6. 最短描述长度原理 MDL
可以应用于分类和聚类。