机器学习 | 评估准则及指标

jdmike

已于 2022-08-04 15:28:00 修改

阅读量1k

点赞数

分类专栏：机器学习 Python 文章标签： pytorch 深度学习 tensorflow

于 2021-04-14 21:28:31 首次发布

本文链接：https://blog.csdn.net/RichardsZ_/article/details/109347377

版权

机器学习同时被 2 个专栏收录

34 篇文章 4 订阅

订阅专栏

Python

27 篇文章 5 订阅

订阅专栏

前言

提示：这里可以添加本文要记录的大概内容：
例如：随着人工智能的不断发展，机器学习这门技术也越来越重要，很多人都开启了学习机器学习，本文就介绍了机器学习的基础内容。

一、假设集合

首先抛出概念！

“假设集合是一类模型的集合”, 如线性模型，多项式模型，树模型，神经网络模型等。机器学习的过程是，选择一类模型作为假设集合，并从该假设集合中选取最贴近真实结果的数学模型。

举例来说，

如何来衡量一个假设集合？

理论上讲，肯定是越适合数据的假设集合越好，这句话听起来像是一句废话。。。但要清楚，在现实场景中，特征的维度很少是一维的，常表现为多维特征，那么通过matplot等工具是很难直观地反映出数据的分布规律。这时该如何做出处理？

扩大假设集合的范围。可避免选择单一模型作为假设集合。例如GBDT, Xgboost。
控制过拟合的风险。避免模型过度专注于训练样本。

二、如何来衡量假设集合

1.分类能力： VC Dimension

VC维，该假设集合能够shatter的最大数据量（shatter指划分数据的任意组合）。

VC维的思想：

用假设集合中最好的模型 vs 任意数据中最复杂的情况。

举例来说：
下图为线性模型的分类问题（线性模型的VC维是N+1, N是特征维度），可以看出特征是2维的（即圆圈和叉叉），VC维是2+1=3，即最多只能划分出3个点
在这里插入图片描述
因此，可以得出规律

VC维要足够大，越大则说明可以shatter的数据量越大，即分类的情况越多。
VC维和参数量近似一致，这也可以解释，特征选取的维度越多，对应的VC维就越大。
复杂模型，更多参数，即更多特征。

VC维需要被制衡

VC维大也只能代表在训练集下，此假设集合能够shatter更多的数据量，但并不代表训练集以外也能保持此状态。需要提升泛化能力。

过拟合：过度关注训练数据，对抗变化能力差

正则化：
L1正则项（lasso回归）

L2正则项（岭回归）

2.稳定性 bias-variance

在这里插入图片描述

评价指标汇总

回归指标

1.平均绝对误差MAE

在这里插入图片描述
和 MSE 一样，这种度量方法也是在不考虑方向的情况下衡量误差大小。但和 MSE 的不同之处在于，MAE 需要像线性规划这样更复杂的工具来计算梯度。此外，MAE 对异常值更加稳健，因为它不使用平方。

均方误差MSE

在这里插入图片描述
RMSE是回归问题中最常用的评估指标。它遵循一个假设，即误差是无偏的并遵循正态分布（具体可以看：

均方根误差RMSE

在这里插入图片描述

1.分类指标：Accuracy

精度Accurac是指模型预测正确（包括真正例TP、真反例TN）的样本数与总体样本数的占比，即：
在这里插入图片描述
其中，

在二分类的问题中：

准确率是分类问题中最简单直观的指标，但是在实际中应用不多。原因是：当样本标签分布不均衡时，比如：正样本占比99%，只要模型把所有样本都预测为正样本，则准确率达到99%，但是实际上模型根本没有预测能力。

2.分类指标：查准率与查全率

混淆矩阵如下所示

P (Positive) 和 N(Negative) 代表模型的判断结果
T (True) 和 F(False) 评价模型的判断结果是否正确

查准率P：在我们预测的所有正例当中，到底有多少是真正的正例
查全率R（召回率）：在所有的真实正例当中，有多少正例被我们预测出来，即召回率

ROC与AUC

在这里插入图片描述
从公式来看，TPR与查全率R一样，即真实的正例中多少被正确预测，因此ROC曲线以“真正例率”（True Positive Rate，简称TPR）为Y轴，X轴为“假正例率”（False Positive Rate，简称FPR），ROC偏重研究基于测试样本评估值的排序好坏。

在这里插入图片描述

ROC曲线绘制

假设已经得出一系列样本被划分为正类的概率，然后按照大小排序，下图是一个示例，图中共有20个测试样本，“Class”一栏表示每个测试样本真正的标签（p表示正样本，n表示负样本），“Score”表示每个测试样本属于正样本的概率。
在这里插入图片描述
我们从高到低，依次将“Score”值作为阈值threshold，当测试样本属于正样本的概率大于或等于这个threshold时，我们认为它为正样本，否则为负样本。举例来说，对于图中的第4个样本，其“Score”值为0.6，那么样本1，2，3，4都被认为是正样本，因为它们的“Score”值都大于等于0.6，而其他样本则都认为是负样本。每次选取一个不同的threshold，我们就可以得到一组FPR和TPR，即ROC曲线上的一点。这样一来，我们一共得到了20组FPR和TPR的值，将它们画在ROC曲线的结果如下图：
在这里插入图片描述

AUC

AUC(Area under Curve)：Roc曲线下的面积，

计算方法一

在有M个正样本,N个负样本的数据集里。一共有MN对样本（一对样本即，一个正样本与一个负样本）。统计这MN对样本里，正样本的预测概率大于负样本的预测概率的个数。
在这里插入图片描述
这样说可能有点抽象，我举一个例子便能够明白。

假设有4条样本。2个正样本，2个负样本，那么M*N=4。即总共有4个样本对。分别是：
（D,B）,（D,A）,(C,B),（C,A）。
在（D,B）样本对中，正样本D预测的概率大于负样本B预测的概率（也就是D的得分比B高），记为1
同理，对于（C,B）。正样本C预测的概率小于负样本C预测的概率，记为0.
最后可以算得，总共有3个符合正样本得分高于负样本得分，故最后的AUC为在这里插入图片描述

计算方法二

在这里插入图片描述

F1-Score

F1分数同时考虑精确率和召回率，让两者同时达到最高，取得平衡。F1分数表达式为
在这里插入图片描述

CTR

点击率=点击量/展现量
在这里插入图片描述

CVR

转化率，衡量CPA广告效果的指标
在这里插入图片描述

总结

提示：这里对文章进行总结：
例如：以上就是今天要讲的内容，本文仅仅简单介绍了pandas的使用，而pandas提供了大量能使我们快速便捷地处理数据的函数和方法。

jdmike

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
机器学习 | 评估准则及指标

文章目录前言一、假设集合如何来衡量一个假设集合？二、如何来衡量假设集合1.分类能力 VC Dimension2.稳定性 bias-variance总结前言提示：这里可以添加本文要记录的大概内容：例如：随着人工智能的不断发展，机器学习这门技术也越来越重要，很多人都开启了学习机器学习，本文就介绍了机器学习的基础内容。一、假设集合首先抛出概念！    “假设集合是一类模型的集合”, 如线性模型，多项式模型，树模型，神经网络模型等。机器学习的过程是，选择一类
复制链接

扫一扫