个人笔记,如有错误,欢迎指正
转载链接:
下面为个人根据两篇文章整理的笔记,即机器学习中常用到评估指标,且大致分为如下四种应用场景:分类问题、回归/拟合问题、聚类问题、信息检索
分类问题
指标 | 计算公式 | 指标说明 | 缺点 |
---|---|---|---|
精度 ( A c c u r a c y ) (Accuracy) (Accuracy) | A c c ( y , y ^ ) = 1 n ∑ i = 1 m s i g n ( y ^ i , y i ) , s i g n ( y ^ i , y i ) { 1 , i f y ^ i = y i 0 , i f y ^ i ≠ y i Acc(y, \hat y) = \frac{1}{n}\sum_{i=1}^m sign(\hat y_i, y_i) ,\\ sign(\hat y_i, y_i) \begin{cases} 1, &if\ \hat y_i = y_i \\ 0, &if\ \hat y_i \neq y_i \end{cases} Acc(y,y^)=n1i=1∑msign(y^i,yi),sign(y^i,yi){1,0,if y^i=yiif y^i=yi | 预测正确的样本占总样本的比例,取值范围为 [ 0 , 1 ] [0,1] [0,1],取值越大,模型预测能力越好 | 对于有倾向性的问题,或者样本类别数量严重失衡的情况,一般不用精度指标衡量 |
混淆矩阵 ( C o n f u s i o n M a t r i x ) (Confusion\ Matrix) (Confusion Matrix) | { T r u e p o s i t i v e ( T P ) , 真 实 值 为 P o s i t i v e , 预 测 值 为 P o s i t i v e T r u e n e g a t i v e ( T N ) , 真 实 值 为 N e g a t i v e , 预 测 值 为 N e g a t i v e F a l s e p o s i t i v e ( F P ) , 真 实 值 为 N e g a t i v e , 预 测 值 为 P o s i t i v e F l a s e n e g a t i v e ( F N ) , 真 实 值 为 P o s i t i v e , 预 测 值 为 N e g a t i v e \begin{cases} True\ positive\ (TP), &真实值为Positive, 预测值为Positive \\ True\ negative\ (TN), &真实值为Negative, 预测值为Negative \\ False\ positive\ (FP), &真实值为Negative, 预测值为Positive\\ Flase\ negative\ (FN), &真实值为Positive, 预测值为Negative \end{cases} ⎩⎪⎪⎪⎨⎪⎪⎪⎧True positive (TP),True negative (TN),False positive (FP),Flase negative (FN),真实值为Positive,预测值为Positive真实值为Negative,预测值为Negative真实值为Negative,预测值为Positive真实值为Positive,预测值为Negative | 更详细表明真实值与预测值之间的关系,矩阵见下面内容 | |
准确率/查准率 ( P r e c i s i o n ) (Precision) (Precision) | P = T P T P + F P P = \frac{TP}{TP + FP} P=TP+FPTP | 分类器预测的正样本中,预测正确的样本数的比例,取值范围为[0,1],取值越大,模型预测能力越好 | |
召回率/查全率 ( R e c a l l ) (Recall) (Recall) | R = T P T P + F N R = \frac{TP}{TP + FN} R=TP+FNTP | 分类器所预测正确的正样本占所有正样本的比例,取值范围为[0,1],取值越大,模型预测能力越好 | |
F β S c o r e F\beta\ \ Score Fβ Score | F β = ( 1 + β 2 ) × P r e c i s i o n × R e c a l l β 2 × P r e c i s i o n + R e c a l l F_\beta = (1 + \beta^2)\times \frac{Precision \times Recall}{\beta^2 \times Precision + Recall} Fβ=(1+β2)×β2×Precision+RecallPrecision×Recall | 统一 R e c a l l Recall Recall和 P r e c i s i o n Precision Precision的矛盾,即利用两者的加权调和平均值作为衡量标准, β \beta β越大, R e c a l l Recall Recall的权重越大,反之, P r e c i s i o n Precision Precision的权重越小 | 该指标无法直观反映数据的情况,同时业务含义相对较弱,实际工作用到的不多 |
A U C ( A r e a U n d e r C u r v e ) AUC\ (Area\ Under\ Curve) AUC (Area Under Curve) | A U C AUC AUC值为 R O C ROC ROC曲线所覆盖的区域面积 | A U C AUC AUC越大,分类器效果越好, A U C = 0.5 AUC=0.5 AUC=0.5时,分类效果最差,类似于随机猜测。反应分类器对样本的排序能力,对样本类别是否均衡并不敏感 | 仅仅适用于二分类模型 |
K S ( K o l m o g o r o v − S m i r n o v ) KS\ (Kolmogorov-Smirnov) KS (Kolmogorov−Smirnov) | 区分预测正负样本分隔程度的评价指标,一般应用于金融风控领域 | ||
K a p p a Kappa Kappa系数 | κ = p 0 − p e 1 − p e = 1 − 1 − p 0 1 − p e \kappa = \frac{p_0 - p_e}{1 - p_e} = 1 - \frac{1 - p_0}{1 - p_e} κ=1−pep0−pe=1−1−pe1−p0 | 衡量两种标注结果的吻合程度,值越大越好 | |
…… | …… | …… | …… |
混淆据矩阵具体内容如下所示:
混淆矩阵
预测值Positive
预测值Negative
真实值Positive
T
P
F
N
真实值Negative
F
P
T
N
\begin{array}{c|} \text{混淆矩阵} & \text{预测值Positive} & \text{预测值Negative} \\ \hline \text{真实值Positive} & TP & FN \\ \text{真实值Negative} & FP & TN \\ \end{array}
混淆矩阵真实值Positive真实值Negative预测值PositiveTPFP预测值NegativeFNTN
回归/拟合问题
指标 | 计算公式 | 指标说明 | 缺点 |
---|---|---|---|
M A E ( M e a n A b s o l u t e E r r o r ) MAE\\ (Mean\ Absolute\ Error) MAE(Mean Absolute Error) | M A E ( y , y ^ ) = 1 m ∑ i = 1 n ∣ y i − y ^ i ∣ MAE(y, \hat y) = \frac{1}{m}\sum_{i=1}^n \vert y_i - \hat y_i \vert MAE(y,y^)=m1i=1∑n∣yi−y^i∣ | 平均绝对误差,也称 L 1 L1 L1范数损失,衡量预测值与真实值之间的距离 | 绝对值的存在, 导致函数不光滑,某些点上不能求导 |
M S E ( M e a n S q u a r e d E r r o r ) MSE\\ (Mean\ Squared\ Error) MSE(Mean Squared Error) | M S E ( y , y ^ ) = 1 m ∑ i = 1 n ( y i − y ^ i ) 2 MSE(y, \hat y) = \frac{1}{m}\sum_{i=1}^n\left(y_i - \hat y_i \right)^2 MSE(y,y^)=m1i=1∑n(yi−y^i)2 | 均方误差 | M S E MSE MSE与目标变量的量纲不一致 |
R M S ( R o o t M e a n S q u a r e d E r r o r ) RMS\\ (Root\ Mean\ Squared\ Error) RMS(Root Mean Squared Error) | R M S E ( y , y ^ ) = 1 m ∑ i = 1 n ( y i − y ^ i ) 2 RMSE(y, \hat y) = \sqrt{\frac{1}{m}\sum_{i=1}^n\left(y_i - \hat y_i \right)^2} RMSE(y,y^)=m1i=1∑n(yi−y^i)2 | 均方根误差 | M R S E MRSE MRSE的取值大小与具体的应用场景有关系,很难定义统一的规则来衡量模型的好坏 |
R 2 s c o r e R^2 score R2score | R 2 ( y , y ^ ) = 1 − S S E S S T = 1 − ∑ i = 1 n ( y i − y ^ i 2 ) 2 ∑ i = 1 n ( y i − y ‾ i 2 ) 2 = 1 − M S E ( y ^ , y ) V a r ( y ) R^2(y, \hat y) = 1 - \frac{SSE}{SST} =1 - \frac{\sum_{i=1}^n\left(y_i - \hat y_i^2\right)^2}{\sum_{i=1}^n\left(y_i - \overline y_i^2\right)^2} = 1 - \frac{MSE(\hat y, y)}{Var(y)} R2(y,y^)=1−SSTSSE=1−∑i=1n(yi−yi2)2∑i=1n(yi−y^i2)2=1−Var(y)MSE(y^,y) | 决定系数,反映应变量的变异能通过回归关系被自变量解释的比例 | 对异常点较敏感 |
以上的评估指标是基于误差的均值对进行评估的,均值对异常点较敏感,如果样本中有一些异常值出现,会对以上指标的值有较大影响,即均值是非鲁棒性的。通常用以下方法解决评估指标的鲁棒性问题:
- 剔除异常值。设置一个阈值,当某个点的误差超过该阈值时,认为该点是异常点,剔除该点,之后再计算平均误差来对模型进行评价
- 使用误差的分位数来替代。如利用中位数 M A P E MAPE MAPE来替代平均数,即 M A P E = m e d i a n ( ∣ y i − y ^ i ∣ y i ) MAPE=median(\frac{\vert y_i - \hat y_i \vert}{y_i}) MAPE=median(yi∣yi−y^i∣)也可以使用其他分位数。
聚类问题
指标 | 计算公式 | 指标说明 | 缺点 |
---|---|---|---|
兰德指数 ( R a n d I n d e x ) (Rand\ Index) (Rand Index) | R I = a + b C 2 n s a m p l e s RI=\frac{a+b}{C_2^{n_{samples}}} RI=C2nsamplesa+b,其中 C 2 n s a m p l e s C_2^{n_{samples}} C2nsamples为数据集中可以组成的总元素对数 | R I RI RI取值范围为 [ 0 , 1 ] [0,1] [0,1],值越大,聚类效果与真实情况越吻合 | 对于随机结果, R I RI RI并不能保证分数接近0,因此提出 A R I ARI ARI |
调整兰德系数 ( A d j u s t e d R a n d I n d e x ) (Adjusted Rand Index) (AdjustedRandIndex) | A R I = R I − E [ R I ] m a x ( R I ) − E [ R I ] ARI=\frac{RI - E[RI]}{max(RI) - E[RI]} ARI=max(RI)−E[RI]RI−E[RI] | 取值范围为 [ − 1 , 1 ] [-1,1] [−1,1],值越大意味着聚类结果与真实情况越吻合 | |
互信息 ( M u t u a l I n f o r m a t i o n ) (Mutual Information) (MutualInformation) | M I ( U , V ) = ∑ i = 1 ∣ U ∣ ∑ j = 1 ∣ V ∣ P ( i , j ) l o g ( P ( i , j ) P ( i ) P ′ ( j ) ) MI(U,V)=\sum_{i=1}^{\vert U\vert}\sum_{j=1}^{\vert V\vert} P(i,j)log\left(\frac{P(i,j)}{P(i)P^{'}(j)}\right) MI(U,V)=i=1∑∣U∣j=1∑∣V∣P(i,j)log(P(i)P′(j)P(i,j)) | 衡量两个数据分布的吻合程度 | |
轮廓系数 ( S i l h o u e t t e c o e f f i c i e n t ) (Silhouette coefficient) (Silhouettecoefficient) | s = b − a m a x ( a , b ) s=\frac{b-a}{max(a,b)} s=max(a,b)b−a, a a a时与它同类别中其他样本的平均距离, b b b时与它距离最近不同类别中样本的平均距离 | 适用于实际类别信息未知的情况,取值范围为 [ − 1 , 1 ] [-1,1] [−1,1],同类别样本距离越近,且不同类别样本距离越远,分数越高 |