机器学习 | 模型评价方法(一)

 点击「京东数科技术说」可快速关注

「摘要」本文是模型评价方法的第一篇,主要介绍了混淆矩阵和ROC曲线相关概念,附带部分基于作者个人经验的理解,如有不足之处还请指正。

 

在模型开发完成之后,一个必不可少的步骤是对建立的模型进行评估,评估其是否满足使用的需要。模型评估有着一套相对标准的模型评价指标,现在按照不同的模型类型进行描述。

混 淆 矩 阵

关于二分类模型的评价指标,混淆矩阵(Confusion Matrix)可以解释大部分的概念,如下所示:

  • TP(True Positive): 真实为1,预测也为1,上表中的a

  • FN(False Negative): 真实为1,预测为0,上表中的b

  • FP(False Positive): 真实为0,预测为1,上表中的c

  • TN(True Negative): 真实为0,预测也为0,上表中的d

基于混淆矩阵衍生的模型评价指标有:

准确率(accuracy)衡量的是分类正确的样本占总样本数量的比例。在一定情况下,准确度可以很好的评价模型的效果,但是,在某些情况下,其评价效果可能会有差异。比如在样本比例相差过大时(原样本为1的样本占总样本数99%),将所有的样本均判定为1的分类器将取得99%的accuracy,将远远好于其它分类器大量训练所得到的结果。故在此基础上,从不同方面出发,有不同的衡量指标。

precision是预测为1的样本里面,真实标签为1的样本占比。recall是实际为1的样本里,预测为1的概率。在通常情况下,precision高时recall偏低,recall高时precision偏低。以挑选西瓜为例,如果以precision作为衡量标准,则尽可能的选取有把握好的西瓜,这样a和c就会相对较小,b和d相对较大,则Recall较低。如果以recall为衡量标准,则是希望尽可能的将好瓜选出来,错判相对会较多,故a和c相对较大,b和d相对较小,故precision相对会降低。

在不同的使用场景下,对于precision和recall各有侧重。以信贷领域为例,在进行信用评级时,我们希望precision尽可能的大,才能尽可能的避免资金的损失。在进行信贷营销时,我们希望recall尽可能的大,才能营销到足够多的目标群体。

对于一般来说,为了平衡precision和recall,可以采用F score作为评价标准

F1的值同时受precision和recall的影响,取值范围为0到1 ,越大代表模型效果越好。

ROC 曲 线

对于二分类模型来说,输出结果标签(0还是1)往往取决于输出的概率以及预定的概率阈值,常见的阈值是0.5,输出概率大于0.5的判定为正样本,小于0.5的判定为负样本。如果增大阈值,对应的预测为正的样本数会减少,一般而言,precision会升高而recall降低;如果减小阈值,对应的预测为正的样本数会增加,precision会降低而recall升高。实际上,阈值的选取一定程度上影响了分类器的分类能力。我们希望一个好的分类器,在任何阈值情况下,都能有一个比较好的效果。为了衡量这个不区分阈值的分类器优劣,ROC曲线表现出很好的区分能力。

上面第一个图两个分布分别为负样本和正样本的概率分布,横坐标为最后模型的打分,中间的竖线表示阈值。可以看到,随着阈值的上升,TN和FN增大,TP和FP减小。第二个图画出了ROC曲线,ROC曲线横轴表示FPR(False Postive Rate),即,代表分类器中预测的正类中实际负实例占所有负实例的比例,纵轴表示TPR(True Postive Rate),即代表分类器预测的正类中实际正实例占所有正实例的比例。由定义可见,随着阈值的增高,TPR和FPR均下降,对于FPR,我们希望其越小越好,对于TPR,我们希望其越大越好。将一个模型不同阈值情况用线串联起来,得到的曲线就是ROC曲线,ROC曲线越靠近左上角,模型效果越好,曲线下面积记为AUC,AUC越大,表示模型整体区分效果越好。

模型评价方法多种多样,在不同的使用场景下各有偏重,在实际业务上,需要根据当前业务发展情况,选择合适的评价方法和模型。

                                       

 关于我们

京东数科运营决策团队基于大数据环境,结合丰富的业务场景,利用机器学习专业技术,不断挖掘海量数据中蕴含的丰富信息,我们已将一系列机器学习模型应用到多个领域中,并且坚持在算法深度的道路上持续探索,致力于对未知信息和事件做出更精准预测,使业务运营策略更加精准有效。



京东数科技术说&技术课堂

   ▼▼▼     

由京东数科-技术研发部策划组织

倡导“原创·实用·技术·专业”

致力于分享技术领域实战经验与技术干货

线上订阅“京东数科技术说”,线下聆听“技术课堂”

为加强技术分享、总结沉淀,提升数科技术影响力而搭建的

线上线下融合交流平台

不只一技之长 · 我有N技在手

 咨询、建议、合作请联系:

刘嘉璐(liujialu)/张明瑛(zhangmingying3)

长按识别二维码关注我们

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值