机器学习衡量指标

个人笔记,如有错误,欢迎指正

转载链接:

  1. 机器学习评估指标
  2. 机器学习评价指标大汇总

下面为个人根据两篇文章整理的笔记,即机器学习中常用到评估指标,且大致分为如下四种应用场景:分类问题、回归/拟合问题、聚类问题、信息检索

分类问题

指标计算公式指标说明缺点
精度 ( A c c u r a c y ) (Accuracy) (Accuracy) A c c ( y , y ^ ) = 1 n ∑ i = 1 m s i g n ( y ^ i , y i ) , s i g n ( y ^ i , y i ) { 1 , i f   y ^ i = y i 0 , i f   y ^ i ≠ y i Acc(y, \hat y) = \frac{1}{n}\sum_{i=1}^m sign(\hat y_i, y_i) ,\\ sign(\hat y_i, y_i) \begin{cases} 1, &if\ \hat y_i = y_i \\ 0, &if\ \hat y_i \neq y_i \end{cases} Acc(y,y^)=n1i=1msign(y^i,yi),sign(y^i,yi){1,0,if y^i=yiif y^i=yi预测正确的样本占总样本的比例,取值范围为 [ 0 , 1 ] [0,1] [0,1],取值越大,模型预测能力越好对于有倾向性的问题,或者样本类别数量严重失衡的情况,一般不用精度指标衡量
混淆矩阵 ( C o n f u s i o n   M a t r i x ) (Confusion\ Matrix) (Confusion Matrix) { T r u e   p o s i t i v e   ( T P ) , 真 实 值 为 P o s i t i v e , 预 测 值 为 P o s i t i v e T r u e   n e g a t i v e   ( T N ) , 真 实 值 为 N e g a t i v e , 预 测 值 为 N e g a t i v e F a l s e   p o s i t i v e   ( F P ) , 真 实 值 为 N e g a t i v e , 预 测 值 为 P o s i t i v e F l a s e   n e g a t i v e   ( F N ) , 真 实 值 为 P o s i t i v e , 预 测 值 为 N e g a t i v e \begin{cases} True\ positive\ (TP), &真实值为Positive, 预测值为Positive \\ True\ negative\ (TN), &真实值为Negative, 预测值为Negative \\ False\ positive\ (FP), &真实值为Negative, 预测值为Positive\\ Flase\ negative\ (FN), &真实值为Positive, 预测值为Negative \end{cases} True positive (TP),True negative (TN),False positive (FP),Flase negative (FN),Positive,PositiveNegative,NegativeNegative,PositivePositive,Negative更详细表明真实值与预测值之间的关系,矩阵见下面内容
准确率/查准率 ( P r e c i s i o n ) (Precision) (Precision) P = T P T P + F P P = \frac{TP}{TP + FP} P=TP+FPTP分类器预测的正样本中,预测正确的样本数的比例,取值范围为[0,1],取值越大,模型预测能力越好
召回率/查全率 ( R e c a l l ) (Recall) (Recall) R = T P T P + F N R = \frac{TP}{TP + FN} R=TP+FNTP分类器所预测正确的正样本占所有正样本的比例,取值范围为[0,1],取值越大,模型预测能力越好
F β    S c o r e F\beta\ \ Score Fβ  Score F β = ( 1 + β 2 ) × P r e c i s i o n × R e c a l l β 2 × P r e c i s i o n + R e c a l l F_\beta = (1 + \beta^2)\times \frac{Precision \times Recall}{\beta^2 \times Precision + Recall} Fβ=(1+β2)×β2×Precision+RecallPrecision×Recall统一 R e c a l l Recall Recall P r e c i s i o n Precision Precision的矛盾,即利用两者的加权调和平均值作为衡量标准, β \beta β越大, R e c a l l Recall Recall的权重越大,反之, P r e c i s i o n Precision Precision的权重越小该指标无法直观反映数据的情况,同时业务含义相对较弱,实际工作用到的不多
A U C   ( A r e a   U n d e r   C u r v e ) AUC\ (Area\ Under\ Curve) AUC (Area Under Curve) A U C AUC AUC值为 R O C ROC ROC曲线所覆盖的区域面积 A U C AUC AUC越大,分类器效果越好, A U C = 0.5 AUC=0.5 AUC=0.5时,分类效果最差,类似于随机猜测。反应分类器对样本的排序能力,对样本类别是否均衡并不敏感仅仅适用于二分类模型
K S   ( K o l m o g o r o v − S m i r n o v ) KS\ (Kolmogorov-Smirnov) KS (KolmogorovSmirnov)区分预测正负样本分隔程度的评价指标,一般应用于金融风控领域
K a p p a Kappa Kappa系数 κ = p 0 − p e 1 − p e = 1 − 1 − p 0 1 − p e \kappa = \frac{p_0 - p_e}{1 - p_e} = 1 - \frac{1 - p_0}{1 - p_e} κ=1pep0pe=11pe1p0衡量两种标注结果的吻合程度,值越大越好
……………………

混淆据矩阵具体内容如下所示:
混淆矩阵 预测值Positive 预测值Negative 真实值Positive T P F N 真实值Negative F P T N \begin{array}{c|} \text{混淆矩阵} & \text{预测值Positive} & \text{预测值Negative} \\ \hline \text{真实值Positive} & TP & FN \\ \text{真实值Negative} & FP & TN \\ \end{array} 混淆矩阵真实值Positive真实值Negative预测值PositiveTPFP预测值NegativeFNTN

回归/拟合问题

指标计算公式指标说明缺点
M A E ( M e a n   A b s o l u t e   E r r o r ) MAE\\ (Mean\ Absolute\ Error) MAE(Mean Absolute Error) M A E ( y , y ^ ) = 1 m ∑ i = 1 n ∣ y i − y ^ i ∣ MAE(y, \hat y) = \frac{1}{m}\sum_{i=1}^n \vert y_i - \hat y_i \vert MAE(y,y^)=m1i=1nyiy^i平均绝对误差,也称 L 1 L1 L1范数损失,衡量预测值与真实值之间的距离绝对值的存在, 导致函数不光滑,某些点上不能求导
M S E ( M e a n   S q u a r e d   E r r o r ) MSE\\ (Mean\ Squared\ Error) MSE(Mean Squared Error) M S E ( y , y ^ ) = 1 m ∑ i = 1 n ( y i − y ^ i ) 2 MSE(y, \hat y) = \frac{1}{m}\sum_{i=1}^n\left(y_i - \hat y_i \right)^2 MSE(y,y^)=m1i=1n(yiy^i)2均方误差 M S E MSE MSE与目标变量的量纲不一致
R M S ( R o o t   M e a n   S q u a r e d   E r r o r ) RMS\\ (Root\ Mean\ Squared\ Error) RMS(Root Mean Squared Error) R M S E ( y , y ^ ) = 1 m ∑ i = 1 n ( y i − y ^ i ) 2 RMSE(y, \hat y) = \sqrt{\frac{1}{m}\sum_{i=1}^n\left(y_i - \hat y_i \right)^2} RMSE(y,y^)=m1i=1n(yiy^i)2 均方根误差 M R S E MRSE MRSE的取值大小与具体的应用场景有关系,很难定义统一的规则来衡量模型的好坏
R 2 s c o r e R^2 score R2score R 2 ( y , y ^ ) = 1 − S S E S S T = 1 − ∑ i = 1 n ( y i − y ^ i 2 ) 2 ∑ i = 1 n ( y i − y ‾ i 2 ) 2 = 1 − M S E ( y ^ , y ) V a r ( y ) R^2(y, \hat y) = 1 - \frac{SSE}{SST} =1 - \frac{\sum_{i=1}^n\left(y_i - \hat y_i^2\right)^2}{\sum_{i=1}^n\left(y_i - \overline y_i^2\right)^2} = 1 - \frac{MSE(\hat y, y)}{Var(y)} R2(y,y^)=1SSTSSE=1i=1n(yiyi2)2i=1n(yiy^i2)2=1Var(y)MSE(y^,y)决定系数,反映应变量的变异能通过回归关系被自变量解释的比例对异常点较敏感

以上的评估指标是基于误差的均值对进行评估的,均值对异常点较敏感,如果样本中有一些异常值出现,会对以上指标的值有较大影响,即均值是非鲁棒性的。通常用以下方法解决评估指标的鲁棒性问题:

  1. 剔除异常值。设置一个阈值,当某个点的误差超过该阈值时,认为该点是异常点,剔除该点,之后再计算平均误差来对模型进行评价
  2. 使用误差的分位数来替代。如利用中位数 M A P E MAPE MAPE来替代平均数,即 M A P E = m e d i a n ( ∣ y i − y ^ i ∣ y i ) MAPE=median(\frac{\vert y_i - \hat y_i \vert}{y_i}) MAPE=median(yiyiy^i)也可以使用其他分位数。

聚类问题

指标计算公式指标说明缺点
兰德指数 ( R a n d   I n d e x ) (Rand\ Index) (Rand Index) R I = a + b C 2 n s a m p l e s RI=\frac{a+b}{C_2^{n_{samples}}} RI=C2nsamplesa+b,其中 C 2 n s a m p l e s C_2^{n_{samples}} C2nsamples为数据集中可以组成的总元素对数 R I RI RI取值范围为 [ 0 , 1 ] [0,1] [0,1],值越大,聚类效果与真实情况越吻合对于随机结果, R I RI RI并不能保证分数接近0,因此提出 A R I ARI ARI
调整兰德系数 ( A d j u s t e d R a n d I n d e x ) (Adjusted Rand Index) (AdjustedRandIndex) A R I = R I − E [ R I ] m a x ( R I ) − E [ R I ] ARI=\frac{RI - E[RI]}{max(RI) - E[RI]} ARI=max(RI)E[RI]RIE[RI]取值范围为 [ − 1 , 1 ] [-1,1] [1,1],值越大意味着聚类结果与真实情况越吻合
互信息 ( M u t u a l I n f o r m a t i o n ) (Mutual Information) (MutualInformation) M I ( U , V ) = ∑ i = 1 ∣ U ∣ ∑ j = 1 ∣ V ∣ P ( i , j ) l o g ( P ( i , j ) P ( i ) P ′ ( j ) ) MI(U,V)=\sum_{i=1}^{\vert U\vert}\sum_{j=1}^{\vert V\vert} P(i,j)log\left(\frac{P(i,j)}{P(i)P^{'}(j)}\right) MI(U,V)=i=1Uj=1VP(i,j)log(P(i)P(j)P(i,j))衡量两个数据分布的吻合程度
轮廓系数 ( S i l h o u e t t e c o e f f i c i e n t ) (Silhouette coefficient) (Silhouettecoefficient) s = b − a m a x ( a , b ) s=\frac{b-a}{max(a,b)} s=max(a,b)ba a a a时与它同类别中其他样本的平均距离, b b b时与它距离最近不同类别中样本的平均距离适用于实际类别信息未知的情况,取值范围为 [ − 1 , 1 ] [-1,1] [1,1],同类别样本距离越近,且不同类别样本距离越远,分数越高

信息检索

信息检索IR的评价指标综述

参考文献

  1. markdown中公式编辑教程
  2. CSDN 输入公式的方法
  3. 机器学习评估指标
  4. 机器学习评价指标大汇总
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值