机器学习
会灰的飞猫
这个作者很懒,什么都没留下…
展开
-
分类性能度量
一、错误率与精度错误率是分类错误的样本数占总样本数的比例;精度是分类正确的样本数占总样本数的比例二、查准率、查全率、F1查准率P:真正例/预测为正的样本数=TP/(TP+FP),是指挑出来的东西里,有多少是好的。查全率R:真正例/实际为正的样本数=TP/(TP+FN),是指全部的好东西,挑出来了多大比例。P-R图:查全率为横轴,查准率为纵轴,包线在外者性能优良。平衡点BEP是查全率=查准率时的取值,综合考虑查全率、查准率的性能度量F1:2PR/(P+R)三、ROC与AUCROC曲线代表泛原创 2020-09-02 16:44:02 · 174 阅读 · 0 评论 -
训练集S和测试集T划分方法
一、留出法直接将数据集D划分为两个互斥的集合,其中一个作为训练集S,另一个作为测试集T。常见做法是将2/3~4/5的样本用于训练,剩余样本用于测试。1、要点训练集和测试集的划分要尽可能保持数据分布的一致性,避免因数据划分过程引入额外的偏差而对最终结果造成影响。在二分类问题中即为正例和反例的的比例一致。2、缺点划分不同时有不同的训练/测试集,模型评估的结果也会有差别。因此,单独使用留出法得到的估计结果往往不够稳定可靠。一般采用若干次随机划分、重复进行实验评估后取平均值作为留出法的评估结果二、交叉验原创 2020-09-02 15:42:34 · 690 阅读 · 0 评论