经验误差(empirical error)即 训练误差(training error):训练集样本产生的误差。
泛化误差(generalization error): 测试集样本产生的误差。
过拟合(overfitting):当学习器把训练样本学得“太好”的时候,很可能已经把训练样本本身的一些特点当作了所有潜在样本都会具有的一般性质,这样就会导致泛化性能下降。
欠拟合(underfitting)
泛化误差的评估方法:
1 留出法
2 交叉验证法/k倍交叉验证
3 自助法
查准率、查全率的性能度量
1 平衡点(Break-Even Point) BEP
查准率=查全率 时的取值
2 F1度量
查准率更重要:在商品推荐系统中,为了尽可能少打扰客户,更希望推荐内容确实是用户感兴趣的。
查全率更重要:在逃犯信息检索系统中,更希望尽可能少漏掉逃犯
比较检验
1 假设检验(二项检验、双边T检验)
2 交叉验证t检验
3 McNemar检验(2和3检验是在一个数据集上比较两个算法的性能)
4 Friedman检验
5 Nemenyi后续检验,进一步区分各算法
偏差与方差(Bias and Variance)