机器学习 | 评估准则及指标


前言

提示:这里可以添加本文要记录的大概内容:
例如:随着人工智能的不断发展,机器学习这门技术也越来越重要,很多人都开启了学习机器学习,本文就介绍了机器学习的基础内容。


一、假设集合

首先抛出概念!

    “假设集合是一类模型的集合”, 如线性模型,多项式模型,树模型,神经网络模型等。机器学习的过程是,选择一类模型作为假设集合,并从该假设集合中选取最贴近真实结果的数学模型。

举例来说,

如何来衡量一个假设集合?

    理论上讲,肯定是越适合数据的假设集合越好,这句话听起来像是一句废话。。。但要清楚,在现实场景中,特征的维度很少是一维的,常表现为多维特征,那么通过matplot等工具是很难直观地反映出数据的分布规律。这时该如何做出处理?

  • 扩大假设集合的范围。可避免选择单一模型作为假设集合。例如GBDT, Xgboost。
  • 控制过拟合的风险。避免模型过度专注于训练样本。

二、如何来衡量假设集合

1.分类能力: VC Dimension

VC维,该假设集合能够shatter的最大数据量(shatter指划分数据的任意组合)。

VC维的思想:

    用假设集合中最好的模型 vs 任意数据中最复杂的情况。

举例来说:
下图为线性模型的分类问题(线性模型的VC维是N+1, N是特征维度),可以看出特征是2维的(即圆圈和叉叉),VC维是2+1=3,即最多只能划分出3个点
在这里插入图片描述
因此,可以得出规律

  • VC维要足够大,越大则说明可以shatter的数据量越大,即分类的情况越多。
  • VC维和参数量近似一致,这也可以解释,特征选取的维度越多,对应的VC维就越大。
  • 复杂模型,更多参数,即更多特征。

VC维需要被制衡

    VC维大也只能代表在训练集下,此假设集合能够shatter更多的数据量,但并不代表训练集以外也能保持此状态。需要提升泛化能力。

过拟合:过度关注训练数据,对抗变化能力差

正则化:
L1正则项(lasso回归)

L2正则项(岭回归)

2.稳定性 bias-variance

在这里插入图片描述

评价指标汇总

回归指标

1.平均绝对误差MAE

在这里插入图片描述
和 MSE 一样,这种度量方法也是在不考虑方向的情况下衡量误差大小。但和 MSE 的不同之处在于,MAE 需要像线性规划这样更复杂的工具来计算梯度。此外,MAE 对异常值更加稳健,因为它不使用平方。

均方误差MSE

在这里插入图片描述
RMSE是回归问题中最常用的评估指标。它遵循一个假设,即误差是无偏的并遵循正态分布(具体可以看:

均方根误差RMSE

在这里插入图片描述

1.分类指标:Accuracy

精度Accurac是指模型预测正确(包括真正例TP、真反例TN)的样本数与总体样本数的占比,即:
在这里插入图片描述
其中,
在这里插入图片描述
在二分类的问题中:
在这里插入图片描述
准确率是分类问题中最简单直观的指标,但是在实际中应用不多。原因是:当样本标签分布不均衡时,比如:正样本占比99%,只要模型把所有样本都预测为正样本,则准确率达到99%,但是实际上模型根本没有预测能力。

2.分类指标:查准率与查全率

混淆矩阵如下所示

  • P (Positive) 和 N(Negative) 代表模型的判断结果

  • T (True) 和 F(False) 评价模型的判断结果是否正确
    在这里插入图片描述
    查准率P:在我们预测的所有正例当中,到底有多少是真正的正例
    查全率R(召回率):在所有的真实正例当中,有多少正例被我们预测出来,即召回率

ROC与AUC

在这里插入图片描述
从公式来看,TPR与查全率R一样,即真实的正例中多少被正确预测,因此ROC曲线以“真正例率”(True Positive Rate,简称TPR)为Y轴,X轴为“假正例率”(False Positive Rate,简称FPR),ROC偏重研究基于测试样本评估值的排序好坏。

在这里插入图片描述

ROC曲线绘制

假设已经得出一系列样本被划分为正类的概率,然后按照大小排序,下图是一个示例,图中共有20个测试样本,“Class”一栏表示每个测试样本真正的标签(p表示正样本,n表示负样本),“Score”表示每个测试样本属于正样本的概率。
在这里插入图片描述
我们从高到低,依次将“Score”值作为阈值threshold,当测试样本属于正样本的概率大于或等于这个threshold时,我们认为它为正样本,否则为负样本。举例来说,对于图中的第4个样本,其“Score”值为0.6,那么样本1,2,3,4都被认为是正样本,因为它们的“Score”值都大于等于0.6,而其他样本则都认为是负样本。每次选取一个不同的threshold,我们就可以得到一组FPR和TPR,即ROC曲线上的一点。这样一来,我们一共得到了20组FPR和TPR的值,将它们画在ROC曲线的结果如下图:
在这里插入图片描述

AUC

    AUC(Area under Curve):Roc曲线下的面积,

计算方法一

在有M个正样本,N个负样本的数据集里。一共有MN对样本(一对样本即,一个正样本与一个负样本)。统计这MN对样本里,正样本的预测概率大于负样本的预测概率的个数。
在这里插入图片描述
这样说可能有点抽象,我举一个例子便能够明白。
在这里插入图片描述
假设有4条样本。2个正样本,2个负样本,那么M*N=4。即总共有4个样本对。分别是:
(D,B),(D,A),(C,B),(C,A)。
在(D,B)样本对中,正样本D预测的概率大于负样本B预测的概率(也就是D的得分比B高),记为1
同理,对于(C,B)。正样本C预测的概率小于负样本C预测的概率,记为0.
最后可以算得,总共有3个符合正样本得分高于负样本得分,故最后的AUC为 在这里插入图片描述

计算方法二

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

F1-Score

    F1分数同时考虑精确率和召回率,让两者同时达到最高,取得平衡。F1分数表达式为
在这里插入图片描述

CTR

点击率=点击量/展现量
在这里插入图片描述

CVR

转化率,衡量CPA广告效果的指标
在这里插入图片描述

总结

提示:这里对文章进行总结:
例如:以上就是今天要讲的内容,本文仅仅简单介绍了pandas的使用,而pandas提供了大量能使我们快速便捷地处理数据的函数和方法。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值