机器学习之模型评估

最新推荐文章于 2022-10-11 18:22:40 发布

刘阿怪

最新推荐文章于 2022-10-11 18:22:40 发布

阅读量383

点赞数

分类专栏：机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_42166771/article/details/89356700

版权

机器学习专栏收录该内容

3 篇文章 0 订阅

订阅专栏

1. 评估指标的局限性

准确率（Accuracy)：分类正确的样本占总样本个数的比列

精确率(Pression)：分类正确的正样本占分类器判定为正样本个数的比列

召回率(Recall)：分类正确的正样本占真正的正样本个数的比列

准确率的局限性：

当不同类别的样本比例非常不均衡的时候，占比大的类别往往会成为影响准确率的最主要的因素。

为了解决这个问题，可以使用更为有效的平均准确率（每个类别下的样本准确率的算术平均）作为模型评估的指标。

为了综合评估一个模型的好坏，最好绘制出模型的P-R曲线，这里简单介绍一下P-R曲线

平方根：RMSE

注：一般情况下，RMSE能够很好的放映回归模型预测值和真实值的偏离程度，但在实际问题中，如果存在个别偏离程度非常大的离群点时，RMSER指标变得很差，此时可以用平均百分比误差MAPE(Mean Absolute PErcent Error)

2.ROC曲线（略）

1.什么时ROC曲线？掌握FPR和TPR的计算方法和含义

ROC曲线时Receiver Operating Characteristic Curve的简称，横坐标为假阳性率（Flase Positive Rate )FPR;纵坐标为真阳性率（TRue Positive Rate)TPR

P是真实的正样本的数量，N是真实值的负样本的数量，TP是P个正样本中被分类器预测为正样本的个数，FP是N个负样本中被分类器预测为正样本的个数

FPR = FP/N

TPR= TP/P

2.如何绘制ROC曲线

在ROC图上绘制出每个截断点对应的位置，再连接所有点就得到最终的ROC曲线

截断点：曲风正负预测结果的阈值

3.如何计算AUC

AUC是指ROC曲线下的面积的大小，该值能够量化地反映基于ROC曲线衡量出的模型的性能。

AUC的取值一般在0.5-1之间，AUC越大说明分类器可能把真正的样本排在前面，分类性能越好。

4.ROC曲线与P-R曲线的区别

ROC曲线能够适应更多的场景，被广泛的用于排序，推荐，广告等领域，但希望看到模型在特定数据集上的表现，p-R曲线能够更直观地反映其性能。

3.余弦距离

对象特征维度很高的时候，余弦相似度在高维情况下依旧保持“相同时为1，正交时为0，相反时为-1”的性质，而欧式距离却不行，所以常常用于文本，图像，视频等领域。

4.A/B测试

A/B测试是验证新模块，新功能，新产品是否有效，新算法，新模型的效果是否有提升，新设计是否受到用户的欢迎，新更改是否影响用户体验的主要检测方法，在机器学习领域中，A/B测试是验证模型最终效果的主要手段。

在对模型进行充分的离线评估后，为什么还要机型在线A/B测试？

原因有三点：

（1).离线评估无法完全消除模型过拟合的影响

（2) 离线评估无法还原线上的工程环境

（3）线上系统的某些商业指标在离线评估中无法计算。

如何进行线上A/B测试？

主要手段是：用户分桶

即将用户分成实验组和对照组，实验组的用户使用新的模型，对照组使用旧模型。在分桶的时候注意样本的独立性和采样方式的无偏性，确保同一个用户每次只能分到同一个桶里，在分桶的过程中所选取的user_id需要时一个随机数，这样才能保证桶中的样本是无偏的。

5.模型评估的方法

Holdout检验，交叉检验，自助法

6 超参数调优

网络搜索，随机搜索，贝叶斯优化算法

7.过拟合和欠拟合

过拟合：模型咋训练集上的表现很好，但在测试集和新数据上的表现较差

欠拟合：模型在训练和预测都表现得不好

降低“过拟合”风险的方法

（1）从数据入手，获得更多的训练数据

（2) 降低模型复杂度

(3) 正则化方法

（4)集成学习方法

降低“欠拟合”风险的方法

（1) 添加新特征

（2）增加莫习性复杂度

（3）减小正则化系数

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
机器学习之模型评估

1. 评估指标的局限性准确率（Accuracy)：分类正确的样本占总样本个数的比列精确率(Pression)：分类正确的正样本占分类器判定为正样本个数的比列召回率(Recall)：分类正确的正样本占真正的正样本个数的比列准确率的局限性：当不同类别的样本比例非常不均衡的时候，占比大的类别往往会成为影响准确率的最主要的因素。为了解决这个问题，可以使用更为有效的平均...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。