初步理解机器学习评估(一)

最新推荐文章于 2022-08-21 22:02:59 发布

人总是要有梦想的QAQ

最新推荐文章于 2022-08-21 22:02:59 发布

阅读量150

点赞数

分类专栏：机器学习文章标签：机器学习

本文链接：https://blog.csdn.net/qq_43410618/article/details/102868997

版权

机器学习专栏收录该内容

18 篇文章 0 订阅

订阅专栏

评估方法:
留出法:
将数据集划分为两个互斥集合,保持数据分布的一致性,训练/测试样本比例通常为2:1~4:1
交叉验证法:
将数据集分层采样划分为k个大小相似的互斥子集,每次用k-1个自己的丙级作为训练集,余下的子集作为测试集,最终返回k个测试结果的均值,k通常取10.为了减小误差,一般需要重复p次
在这里插入图片描述
留一法:
将交叉验证法中的k = m(m是数据集中样本的数量),这样显然有利有弊,结果相对准确,不收划分方式的影响,但当数据集大时,计算开销难以忍受
自助法:
对数据集又放回的采样m次得到数据集D’, D/D’用作测试集
在这里插入图片描述

评估指标：
准确率＆＆错误率
但是准确率和错误率将每个类看的同等重要,不适合分析类不平衡数据集,此时查准率和查全率更适合,对于二分类问题,稀有类样本为正例.多数类样本为负例,可以得到混淆矩阵如下:
在这里插入图片描述

很多分类器会对测试样例产生一个概率预测,可以将预测的概率进行排序,把最可能的排在前面,最不可能的排在后面,分类过程就相当于一某个截断点将样本分为两部分,所以排序本身质量的好坏体现了分类器的性能
ROC曲线：
受试者工作特征曲线，选择不同的截断点逐个对样例预测,计算出真正率和假正率,以真正率和假正率分别为竖轴和横轴,建立曲线
在这里插入图片描述
分类器预测样本排序的性能通过ROC包围的的面积进行比较,即AUC(Area Under ROC Curve).

以下面为例:

直接度量分类器的类概率估计性能:
条件似然性[CLL]

~~写的貌似有点长了,那下一篇继续写比较检验的内容好了~~
上述内容参考:
中国地质大学课件

人总是要有梦想的QAQ

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
初步理解机器学习评估(一)

评估方法:留出法:将数据集划分为两个互斥集合,保持数据分布的一致性,训练/测试样本比例通常为2:1~4:1交叉验证法:将数据集分层采样划分为k个大小相似的互斥子集,每次用k-1个自己的丙级作为训练集,余下的子集作为测试集,最终返回k个测试结果的均值,k通常取10.为了减小误差,一般需要重复p次留一法:将交叉验证法中的k = m(m是数据集中样本的数量),这样显然有利有弊,结果相对准确...
复制链接

扫一扫

专栏目录