机器学习的评价指标

最新推荐文章于 2025-03-21 11:35:13 发布

SrdLaplaceGua

最新推荐文章于 2025-03-21 11:35:13 发布

阅读量1.8k

点赞数 2

分类专栏：机器学习实用技巧

本文链接：https://blog.csdn.net/SrdLaplace/article/details/81586783

版权

机器学习同时被 2 个专栏收录

57 篇文章

订阅专栏

实用技巧

32 篇文章

订阅专栏

本文详细介绍了用于评估机器学习模型的各种指标，包括回归问题中的RMSE、MSE、MAE等，分类问题中的准确率、精确率、召回率等，以及针对特定应用场景的Gini系数、交叉熵等。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

个人觉得机器学习算法的好坏主要由4个因素决定：

模型精度
判别速度
模型占用资源情况
模型训练速度

后面三个的情况的好坏都比较直观（判别速度就是模型的吞吐量，每秒可以处理多少条数据；模型占用资源就是模型需要占用多少内存；训练速度就是模型训练需要花费多长时间），而精度的评价指标却比较多，而且评价指标在一定程度上相当于损失函数，模型优化的对象。现在就来总结一下常见的模型精度的评价指标。

回归问题

回归问题常见的评价指标有：

RMSE(Root Mean Square Error)

E r m s e = \sum N i = 1 ( y ^ i - y i ) 2 N - - - - - - - - - - - - \sqrt

$E_{rmse}=\sqrt{\frac{\sum_{i=1}^N (\hat{y}_i-y_i)^2}{N}}$

MSE (Mean Square Error)

E m s e = \sum N i = 1 ( y ^ i - y i ) 2 N

$E_{mse}=\frac{\sum_{i=1}^N (\hat{y}_i-y_i)^2}{N}$

前面两个由于误差是平房形式的，所以对某一两个异常值特别敏感，一两个异常值会使得整个模型有所偏斜。但是他们的好处是方便求导，符合高斯分布的假设，用的是最多的。

MAE(mean absolute error)

E m a e = \sum N i = 1 | y ^ i - y i | N

$E_{mae}=\frac{\sum_{i=1}^N |\hat{y}_i-y_i|}{N}$

MAPE(mean absolute percentage error)

E m a p e = 1 N \sum i = 1 N | y ^ i - y i | | y i |

$E_{mape}=\frac{1}{N}\sum_{i=1}^N\frac{|\hat{y}_i-y_i|}{|y_i|}$

改进的MAPE

E m a p e = 2 N \sum i = 1 N | y ^ i - y i | | y i | + | y ^ i |

$E_{mape}=\frac{2}{N}\sum_{i=1}^N\frac{|\hat{y}_i-y_i|}{|y_i|+|\hat{y}_i|}$

避免了 $y_i$ 为0的情况，但会比“直观感受”偏小一点。MAPE相当于相对误差，MAE和MSE相当于绝对误差。

拟合优度(Goodness of Fit)

G o F = 1 - \sum N i = 1 ( y i - y ^ i ) 2 \sum N i = 1 ( y i - y ¯ i ) 2

$GoF = 1-\frac{\sum_{i=1}^N(y_i-\hat{y}_i)^2}{\sum_{i=1}^N(y_i-\bar{y}_i)^2}$

这个是越大越好。

分类问题

分类问题的评价指标比回归要丰富的多，因为分类的场景不同，需要的评价指标也不同。分类问题对错最基础的概念就是混淆矩阵：

混淆矩阵	真实值为真	真实值为假
预测值为真	TP	FP
预测值为假	TN	FN

confuse matrix

同理可以推广到多分类问题上，各种评价指标都是依赖于这个矩阵产生的。

准确率（Accuracy）

a c c = T P + T N T P + F P + T N + F N = 预 测 结 果 正 确 的 样 本 数 样 本 总 数

$acc = \frac{TP+TN}{TP+FP+TN+FN}=\frac{预测结果正确的样本数}{样本总数}$

精确率（Precision）

P = T P T P + F P

$P=\frac{TP}{TP+FP}$

感觉他另一个名字“查准率”更能体现这个指标的意思，当不要误判成为很关键的因素的时候，就需要重点看这个指标了。用通俗的话解释他就是A类别的精确率等于预测为A且正确的样本数除以预测为A的样本总数。

召回率（Recall）

R = T P T P + F N

$R=\frac{TP}{TP+FN}$

另外一个名字“查全率”更容易理解。当不要漏判成为很关键的因素的时候，就需要重点看这个指标了。用通俗的话解释他就是A类别的精确率等于预测为A且正确的样本数除以A的样本总数。

F1 score

f 1 = 2 \cdot P \cdot R P + R

$f_1=\frac{2\cdot P\cdot R}{P+R}$

$F\alpha$ score

f α = ( 1 + α 2 ) \cdot P \cdot R α 2 P + R

$f_{\alpha}=\frac{(1+\alpha^2)\cdot P\cdot R}{\alpha^2P+R}$

F系列的指标是精确率、召回率的调和平均，体现了对精确率和召回率的权衡，加入 $\alpha$ 相当于一个对精确率召回率的偏好。

Gini系数

G i n i = 1 - \sum i p 2 i

$Gini=1-\sum_ip_i^2$

m e a n (G i n i) = 1 N \sum k = 1 K n k G i n i k

$mean(Gini)=\frac{1}{N}\sum_{k=1}^Kn_kGini_k$

Gini系数相当于纯度， $p_i$ 是集合中数据为 $i$ 类的概率

交叉熵

l o s s = - \sum_{i} y_{i} l n {\hat{y}}_{i}

$loss=-\sum_iy_iln\hat{y}_i$

交叉熵也是从概率的角度来确定损失函数的，直观

准确率、 Gini系数、交叉熵的各个类别类是平权的，精确率更在意的预测为真的不要预测错了，召回率更在意的是本来是真的不要预测错了。 $f_1$ 、 $f_{\alpha}$ 是精确率和召回率的权衡。

等错误率(EER, Equal Error Rate)

FA(False Acceptance)错误接受率： $FA=\frac{FP}{TP+FP}=1-P$
FR(False Rejection)错误拒绝率： $FR=\frac{FN}{TN+FN}$
等错误率(EER, Equal Error Rate)：当 $FA=FR$ 时， $EER=FA=FR$

ROC曲线与AUC值

纵轴为真阳性率（TPR），即，灵敏度、命中率、召回，定义为 $TPR=\frac{TP}{TP+FN}$ 。
横轴假阳性率（FPR），即，误检率，定义为 $FPR=\frac{FP}{FP+TN}$ 。
如果ROC是光滑的，那么基本可以判断没有太大的overfitting。
ROC曲线下方的面积为AUC值。
ROC

PRC曲线与mAP

PRC（precision recall curve）：如果只能选一个指标的话，肯定是选PRC了。可以把一个模型看的一清二楚。在正负样本分布得极不均匀(highly skewed datasets)的情况下，PRC比ROC能更有效地反应分类器的好坏。mAP值是PRC的面积。
PRC

检验分布的评价指标

卡方分布：n个独立同分布的随机变量，都服从标准正态分布，那么平方和服从的分布就是自由度为n的卡方分布。

卡方检验

卡方检验是用来检验一个分布是否满足一个已知的分布。具体计算公式是

χ 2 = \sum i = 1 K f i - n p i n p i

$\chi^2=\sum_{i=1}^K \frac{f_i-np_i}{np_i}$

$f_i$ 是落在某一区间的实验频次， $np_i$ 为理论值，他应该服从自由度为 $K−1$ 的卡方分布，查表判断是否拒绝设定的分布假设。

K-S检验

K-S检验时判断两个分布是否同为相同分布。计算需要做比较的两组观察数据的累积分布函数，然后求这两个累积分布函数的差的绝对值中的最大值D。最后通过查表以确定D值是否落在所要求对应的置信区间内。
这里写图片描述

t检验

t分布：n个标准正态分布的均值的分布
t检验：比较两个平均数的差异是否显著，主要用于样本含量较小（例如n<30），总体标准差 $\sigma$ 未知的正态分布。

步骤1.计算统计量
- 单总体t检验： $t=\frac{\bar{x}-\mu}{s/\sqrt{n}}$ , $s=\sqrt{\frac{\sum_{i=1}^n(x_i-\bar{x})}{n-1}}$
- 双总体t检验： $t=\frac{\bar{x}_1-\bar{x}_2}{\sqrt{\frac{(n_1-1)s_1^2+(n_2-1)s_2^2}{n_1+n_2-2}(\frac{1}{n_1}+\frac{1}{n_2})}}$ , $s=\sqrt{\frac{\sum_{i=1}^n(x_i-\bar{x})}{n-1}}$
- 配对样本t检验:若二群配对样本满足 $x_i=y_{1i}-y_{2i}$ ， $t=\frac{\bar{x}-\mu}{s/\sqrt{n}}$ , $s=\sqrt{\frac{\sum_{i=1}^n(x_i-\bar{x})}{n-1}}$ , $\mu$ 为本身配对的常数差距。
步骤2.满足n-1的t分布，查表判断是否拒绝