【机器学习基础】性能度量与评估方法

最新推荐文章于 2022-10-22 10:02:15 发布

Tuzi_bo

最新推荐文章于 2022-10-22 10:02:15 发布

阅读量858

点赞数

分类专栏：机器学习文章标签：机器学习性能评估 PR曲线 ROC曲线

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u010834867/article/details/91488340

版权

目录

一性能度量

1.2 k折交叉验证

二评估方法

2.1 精确率(查准率)，召回率(查全率)和F1值

2.4 使用场景

三参考材料

在学习器将模型构造出来之后，我们通常需要进行评估该模型的好坏，因此本文介绍几种评估的方法，在这之前先明确几个定义：

1.训练误差：模型在训练集上的误差，假设模型为 $Y=\widehat{f}(X)$ ，N为训练样本数量，则误差可表示为

$R_{emp}(\widehat{f})=\frac{1}{N}\sum_{i=1}^{N}L(y_i,\widehat{f}(x_i))$ ，其中函数L为预测值与实际值之间的误差。

2.测试误差：模型在测试集上的误差，与训练误差计算方式一致，

$R_{test}(\widehat{f})=\frac{1}{{N}'}\sum_{i=1}^{{N}'}L(y_i,\widehat{f}(x_i))$

一性能度量

1.1 留出法

留出法直接将数据集D分成两个集合，一个是训练集，一个是测试集，分的比例可以自由设定，一般会设置三七分或者二八分。在设定好了比例之后，就是按照比例去进行采样就好了，但是对于不同的数据集，就要考虑采样的随机性和数据一致性。

因此在采样的时候，对于数据一致性通常会采用分层采样，这主要是针对正负样本比例差别很大或者某一维特征的数据分布不均匀的情况，举个例子，假设有100个样本的数据集D，其中有80个是正样本，20个负样本，现在采用二八分的比例进行留出，那么分层采样的做法是先在80个正样本中取出80%放到训练集，20%放到测试集，负样本一样的处理，这样就能保证数据的一致性。

对于随机性，可以采用多次随机划分，比如进行10次随机划分，那么就会有10个不同的结果，最终的结果使用这10个结果的平均。

1.2 k折交叉验证

将数据集D划分成K个大小相似的子集，即 $D=D_1\cup D_2 \cup \cdots \cup D_k$ ，其中每两个子集之间都是不相交的，每次用k-1个子集作为训练集，剩下的作为测试集，可以得到k组训练集与测试集，最终的结果采用k组结果的均值。

二评估方法

2.1 精确率(查准率)，召回率(查全率)和F1值

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
【机器学习基础】性能度量与评估方法

目录一性能度量1.1 留出法1.2 k折交叉验证二评估方法2.1 精确率(查准率)，召回率(查全率)和F1值2.2 ROC曲线2.3 PR曲线2.4 使用场景三参考材料在学习器将模型构造出来之后，我们通常需要进行评估该模型的好坏，因此本文介绍几种评估的方法，在这之前先明确几个定义：1.训练误差：模型在训练集上的误差，假设模型为，N为训练样本数量，则...
复制链接

扫一扫

专栏目录

Tuzi_bo CSDN认证博客专家 CSDN认证企业博客

码龄11年

29: 原创

7万+: 周排名

83万+: 总排名

18万+: 访问

: 等级

1282: 积分

72: 粉丝

245: 获赞

27: 评论

1039: 收藏

私信

关注

热门文章

分类专栏

最新评论

【机器学习基础】信息熵，联合熵，条件熵，互信息，相对熵，交叉熵
高性能服务器: 为了更好的理解，需要了解的概率必备知识有：大写字母X表示随机变量，小写字母x表示随机变量X的某个具体的取值； P(X)表示随机变量X的概率分布，P(X,Y)表示随机变量X、Y的联合概率分布，P(Y|X)表示已知随机变量X的情况下随机变量Y的条件概率分布； p(X = x)表示随机变量X取某个具体值的概率，简记为p(x)； p(X = x, Y = y) 表示联合概率，简记为p(x,y)，p(Y = y|X = x)表示条件概率，简记为p(y|x)，且有：p(x,y) = p(x) * p(y|x)。
【机器学习基础】EM算法
shayuhai685: lnx是凹函数？
【机器学习基础】EM算法
amenxi: 确实，初始条件只是说明了样本的结果是基于2个分布的，最后分析得出的结果也是2个分布的概率分布，并不能确定这2个是对应的a或b，除非还有一个条件，比如a的正例出现的概率大于b
【机器学习基础】EM算法
Mia?even: 整理的好棒👍
【机器学习基础】EM算法
lth在海上漂: 我不断的重复这两个值发现后面都不变了

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。