机器学习之模型评估

1. 评估指标的局限性

 

准确率(Accuracy): 分类正确的样本占总样本个数的比列

精确率(Pression):分类正确的正样本占分类器判定为正样本个数的比列

召回率(Recall):分类正确的正样本占真正的正样本个数的比列

 

准确率的局限性:

当不同类别的样本比例非常不均衡的时候,占比大的类别往往会成为影响准确率的最主要的因素。

为了解决这个问题,可以使用更为有效的平均准确率(每个类别下的样本准确率的算术平均)作为模型评估的指标。

为了综合评估一个模型的好坏,最好绘制出模型的P-R曲线,这里简单介绍一下P-R曲线

 

 

平方根:RMSE

注:一般情况下,RMSE能够很好的放映回归模型预测值和真实值的偏离程度,但在实际问题中,如果存在个别偏离程度非常大的离群点时,RMSER指标变得很差,此时可以用平均百分比误差MAPE(Mean  Absolute  PErcent Error)

2.ROC曲线(略)

1.什么时ROC曲线?掌握FPR和TPR的计算方法和含义

ROC曲线时Receiver Operating Characteristic Curve的简称,横坐标为假阳性率(Flase Positive Rate )FPR;纵坐标为真阳性率(TRue  Positive Rate)TPR

P是真实的正样本的数量,N是真实值的负样本的数量,TP是P个正样本中被分类器预测为正样本的个数,FP是N个负样本中被分类器预测为正样本的个数

FPR = FP/N

TPR= TP/P

2.如何绘制ROC曲线

在ROC图上绘制出每个截断点对应的位置,再连接所有点就得到最终的ROC曲线

截断点:曲风正负预测结果的阈值

 

3.如何计算AUC

AUC是指ROC曲线下的面积的大小,该值能够量化地反映基于ROC曲线衡量出的模型的性能。

AUC的取值一般在0.5-1之间,AUC越大说明分类器可能把真正的样本排在前面,分类性能越好。

4.ROC曲线与P-R曲线的区别

ROC曲线能够适应更多的场景,被广泛的用于排序,推荐,广告等领域,但希望看到模型在特定数据集上的表现,p-R曲线能够更直观地反映其性能。

3.余弦距离

对象特征维度很高的时候,余弦相似度在高维情况下依旧保持“相同时为1,正交时为0,相反时为-1”的性质,而欧式距离却不行,所以常常用于文本,图像,视频等领域。

4.A/B测试

A/B测试是验证新模块,新功能,新产品是否有效,新算法,新模型的效果是否有提升,新设计是否受到用户的欢迎,新更改是否影响用户体验的主要检测方法,在机器学习领域中,A/B测试是验证模型最终效果的主要手段。

在对模型进行充分的离线评估后,为什么还要机型在线A/B测试?

原因有三点:

(1).离线评估无法完全消除模型过拟合的影响

(2) 离线评估无法还原线上的工程环境

(3)线上系统的某些商业指标在离线评估中无法计算。

如何进行线上A/B测试?

主要手段是:用户分桶

即将用户分成实验组和对照组,实验组的用户使用新的模型,对照组使用旧模型。在分桶的时候注意样本的独立性和采样方式的无偏性,确保同一个用户每次只能分到同一个桶里,在分桶的过程中所选取的user_id需要时一个随机数,这样才能保证桶中的样本是无偏的。

5.模型评估的方法

Holdout检验, 交叉检验,自助法

6 超参数调优

网络搜索, 随机搜索,贝叶斯优化算法

7.过拟合和欠拟合

过拟合:模型咋训练集上的表现很好,但在测试集和新数据上的表现较差

欠拟合:模型在训练和预测都表现得不好

降低“过拟合”风险的方法

(1)从数据入手,获得更多的训练数据

(2)  降低模型复杂度

  (3)  正则化方法

(4)集成学习方法

降低“欠拟合”风险的方法

(1)   添加新特征

(2)增加莫习性复杂度

(3) 减小正则化系数

 

 

 

 

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值