关键词:留出法(hold-out)。怎么将给定的数据集划分为训练集和测试集呢?常用的方法在这里有介绍。首先介绍的是留出法,其实这种方法在国内教材和论文中最常见,就是把数据集D划分为两个互斥的集合,其中一个是训练集,一个是测试集。书中给出的参考划分比例是,训练集66.6%~80%。
关键词:交叉验证法(cross validation)。交叉验证法是竞赛中或者比较正式的实验中用得比较多。什么是交叉验证呢? 其实就是将数据集D划分为k个大小相同的互斥的子集,然后用k-1个子集作为训练,剩下那一个子集作为测试。这样就需要训练k个模型,得到k个结果,再取平均即可。这样的方法通常成为“k折交叉验证”。书中还给出了k的参考值,:5,10,20。
召回率(recall,查全率):实际上有那么多正例,机器找回了多少。
准确率(查准率,precision):学习器判断为正例的那堆中,判断得正确的正确的是多少。
P-R曲线,横轴是recall,纵轴是precision.
西瓜书上的一些小知识
最新推荐文章于 2024-08-22 20:53:15 发布