模型评估
- 一、评估方法
- 在学习得到一个比较好的模型之前需要对这个模型进行性能的测试、评估,所以我们需要一个测试集(testing set)来测试模型的好坏,主要测试这个模型对新样本的泛化能力,然后以测试集上的测试误差作为泛化误差的近似值。
- 测试集要和训练集样本尽力互斥
- 给定一个数据集,将数据集拆分成训练集S和测试集T,通常,通常的做法有留出法、交叉验证法、自助法。
- 1 留出法 :
直接将数据集划分为两个互斥集合
训练/测试集划分要尽可能保持数据分布的一致性
一般若干次随机划分、重复实验取平均值
训练/测试样本比例通常为2:1~4:1 - 2 交叉验证法:
将数据集分层采样划分为k个大小相似的互斥子集,每次用k-1个子集的并集作为训练集,剩下的作为测试集,最终返回k个测试结果的均值,k最常用的取值是10
假设数据集D包含m个样本,若令k=m,则得到留一法:
不受随机样本划分方式的影响
结果往往比较准确
当数据集比较大时,计算开销难以忍受
- 1 留出法 :
- 3 自助法:
以自助采样法为基础,对数据集D有放回采样m次得到训练集, 用做测试集
实际模型与预期模型都使用m个训练样本
约有1/3的样本没在训练集中出现,用作测试集
从初始数据集中产生多个不同的训练集,对集成学习有很大的好处
自助法在数据集较小、难以有效划分训练/测试集时很有用;由于改变了数据集分布可能引入估计偏差,在数据量足够时,留出法和交叉验证法更常用。
- 二、评估指标
衡量模型泛化能力好坏的评估标准,准确率和错误率是常用的2种评估指标。
准确率是分对样本占测试样本总数 比例
错误了是分错样本占测试样本总数的比例
查准率:被分为正类的样本中实际为正类的样本比例P=TP/(TP+FP)
查全率:被分为正类的样本中被分为为正类的样本比例R=TP/(TP+FN)
可见,查准率是被分类器分为正类的样本中实际为正类的比例;而查全率是被分类器正确分类为正类的比例。二者通常是矛盾的。查准率高时,查全率往往偏低;而查全率高时,查准率往往偏低。为综合考虑查准率和查全率,它们的调和均值F1度量被提出:
机器学习-模型评估