1.错误率(error rate):分类错误的样本数占样本总数的比例,如m个样本中有a个样本分类错误,则错误率:
2.精度(accuracy):就是正确率呗,整体1减去错误率即得。
3.误差(error):学习器的实际预测输出与样本的真实输出之间的差异。
4.训练误差(training error):学习器在训练集上的误差,也叫经验误差。
5.泛化误差(generalization error):在新样本上的误差,我们希望得到更小的泛化误差,这就如同自己模拟和高考的区别。
6.过拟合(overfitting):人脸上必须戴眼镜,苹果必须是绿色的,鸡必须练习两年半等。
7.欠拟合(underfitting):机器对训练样本的一般性质还没学好,我刚幼儿园大班毕业你让我参加高考。
8.测试误差(testing error):测试集内容与训练集尽量互斥,以此误差近似当为泛化误差。
9.留出法(hold-out):数据集划分为两个互斥的集合,一个作为训练集S,另一个作为测试集T。
10.交叉验证法(cross validation):划分为k个互斥子集,用k-1个作为S,剩下的一个作为T。当k为总样本数量时,称为留一法(leave-one-out,LOO),留一法的评估结果往往被认为比较准确。
11.自助法(bootstrapping):从总样本里进行有放回的采样,使用采样数据集作为S,未采到的约有的数据作为测试集。样本较小时用起来好一些,但是会引入额外的估计误差,因为改变了初始数据集分布。
12.数据集划分的经验:初始数据量足够时,留出法与交叉验证更常用。
13.验证集(validation set)是干嘛的?
- 用于在训练过程中检验模型的状态,收敛情况。验证集通常用于调整超参数,根据几组模型验证集上的表现决定哪组超参数拥有最好的性能。
- 同时验证集在训练过程中还可以用来监控模型是否发生过拟合,一般来说验证集表现稳定后,若继续训练,训练集表现还会继续上升,但是验证集会出现不升反降的情况,这样一般就发生了过拟合。所以验证集也用来判断何时停止训练
14.性能度量(performance measure):对学习器的泛化性能评估,不仅需要有效的实验估计方法,还需要有衡量模型泛化能力的评价标准,即之。(赶紧拉草皮过来,必须得符合欧盟标准)。
15.查准率(precision)、查全率(recall)与F1:
如一个二分类问题的预测结果,无非4种情况:真正例(true positive)、假正例(false positive)、真反例(true negative)与假反例(false negative),前面真假代表预测结果,后面正反代表预测对了还是错了。
真实情况/预测结果 | 正例 | 反例 |
正例 | TP(真正例) | FN(假反例) |
反例 | FP(假正例) | TN(真反例) |
查准率P定义为:
查全率R定义为:
这俩度量互相矛盾,此高彼低。
P-R曲线:以查准率为纵轴,查全率为横轴的二维坐标系。
平衡点(break-even point):查准率=查全率 时,的取值。
F1度量:
16.ROC(Recevier Operating Characteristic)与AUG(Area Under ROC Curve):
与P-R类似,ROC的横轴为FPR(False Positive Rate),纵轴为TPR(True Postive Rate)。
AUG就是ROC的面积。