分类模型的评估方法

最新推荐文章于 2024-05-14 16:56:08 发布

Jessica__WEI

最新推荐文章于 2024-05-14 16:56:08 发布

阅读量2.9k

点赞数 3

分类专栏：机器学习文章标签：分类模型评估方法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u013402321/article/details/78798407

版权

机器学习专栏收录该内容

10 篇文章 0 订阅

订阅专栏

在检验集上计算出的准确率或错误率可以用来比较不同分类器在相同领域上的性能，但需要检验记录的类标号必须已知。

一、保持方法(Holdout)

将被标记的原始数据划分为两个不相交的集合，分别为训练集和检验集。在训练集上归纳分类模型，在检验集上评估模型的性能。训练集和检验集的划分比例通常根据专家的判断，例如50-50，或者2/3作为训练集，1/3作为检验集。模型的准确率根据模型在检验集上的准确率估计。

局限性：

1.用于训练的被标记样本较少，因此，建立的模型不如使用所有样本建立的模型好。

2.模型可能高度依赖于训练集和检验集的构成。训练集越小，模型的方差越大；训练集太大，较小检验集给出的准确率又不太可靠。

二、随机二次抽样(Random subsampling)

多次重复保持方法来改进对分类器性能的估计。

局限性：

1.训练阶段没有利用尽可能多的数据。

2.没有控制每次记录用于训练和检验的次数，有些用于训练的记录使用的频率可能比其他记录高很多。

三、交叉检验(Cross-validation)

把数据集分为大小相同的k份，在每次运行时，选择一份作为检验集，其余作为训练集，该过程重复k次，使得每份数据都用于检验恰好一次。总误差是所有k次运行的误差之和。当k=N，其中N是数据集的大小，即为留一法(Leave-one-out)，其中每个检验集只有一个记录。

优点：

1.使用尽可能多的训练记录

2.检验集之间互斥，并有效覆盖了整个数据集

留一法的缺点：

1.整个过程重复N次，计算开销很大。

2.每个检验集只有一个记录，性能估计度量的方差偏高。

四、自助法(Bootstrap)

以上方法均假设训练记录不放回抽样。在自助法中，训练记录采用有放回抽样，使其等概率地被重新抽取。可以证明，大小为N的自助样本大约包含原始数据中63%的记录，没有抽中的记录就成为检验集的一部分。

【几个概念】

准确率(Accuracy)=正确预测数/预测总数

错误率(Error rate)=错误预测数/预测总数

【参考文献】

Pang-Ning Tan等，数据挖掘导论，中国工信出版集团

关注

3
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
分类模型的评估方法

在检验集上计算出的准确率或错误率可以用来比较不同分类器在相同领域上的性能，但需要检验记录的类标号必须已知。一、保持方法(Holdout)将被标记的原始数据划分为两个不相交的集合，分别为训练集和检验集。在训练集上归纳分类模型，在检验集上评估模型的性能。训练集和检验集的划分比例通常根据专家的判断，例如50-50，或者2/3作为训练集，1/3作为检验集。模型的准确率根据模型在检验集上的准
复制链接

扫一扫

专栏目录

Jessica__WEI CSDN认证博客专家 CSDN认证企业博客

码龄11年

47: 原创

19万+: 周排名

153万+: 总排名

17万+: 访问

: 等级

1930: 积分

23: 粉丝

70: 获赞

15: 评论

337: 收藏

私信

关注

热门文章

分类专栏

python 8篇
c++ 1篇
Sublime Text 1篇
VIM 1篇
Shell 6篇
git 2篇
Hive 3篇
SQL 3篇
算法基础 4篇
机器学习 10篇
竞赛 1篇
编程工具 4篇
Spark 3篇

最新评论

Hive查询结果的几种保存方法
datagov: 不错，学习了
PyCharm中Jupyter Notebook的使用
qq_51402141: run cell 在哪里
pyspark的windows7环境搭建
overripethree49: 补充几点： 1. 如果你不打算用Scala语言编程，可以跳过第2步“安装scala，配置环境变量”。 2. hadoop最好也安装，反正占用空间也不大。按理说hadoop不是必须的，但是我尝试了下不安装hadoop，pyspark要出错。我没去研究原因和解决方法。 3. 第5步里，在执行 winutils.exe chmod -R 777 c:/tmp/Hive 的时候，如果这个目录不存在，自己创建一个。不然这个命令执行不了要报错。 4. 第6步其实就是在手动把pyspark和py4j安装到anaconda里去。我建议你直接在anaconda里面安装pyspark，py4j会自动伴随安装上，还不用自己修改配置文件。 5. 现在所有版本的Spark都支持python 3.7了。
shell中各种括号()、(())、[]、[[]]、{}的作用和区别
cacadang: 厉害
shell中各种括号()、(())、[]、[[]]、{}的作用和区别
DKN、柒桓叶: 牛逼！

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。