模型评价指标

最新推荐文章于 2024-09-18 21:17:30 发布

liulina603

最新推荐文章于 2024-09-18 21:17:30 发布

阅读量3.9w

点赞数 6

分类专栏： python 学习

python 学习专栏收录该内容

26 篇文章 4 订阅

订阅专栏

一、分类评价指标

1、对数损失函数(Log-loss)

在分类输出中，若输出不再是0-1，而是实数值，即属于每个类别的概率，那么可以使用Log-loss对分类结果进行评价。这个输出概率表示该记录所属的其对应的类别的置信度。比如如果样本本属于类别0，但是分类器则输出其属于类别1的概率为0.51，那么这种情况认为分类器出错了。该概率接近了分类器的分类的边界概率0.5。Log-loss是一个软的分类准确率度量方法，使用概率来表示其所属的类别的置信度。Log-loss具体的数学表达式为：

l o g_l o s s = - 1 N \sum i = 1 N y i l o g p i + (1 - y i) l o g (1 - p i)

其中，

yi 是指第

i 个样本所属的真实类别0或者1，

pi 表示第

i 个样本属于类别1的概率，这样上式中的两个部分对于每个样本只会选择其一，因为有一个一定为0，当预测与实际类别完全匹配时，则两个部分都是0，其中假定0log0=0。

其实，从数学上来看，Log-loss的表达式是非常漂亮的。我们仔细观察可以发现，其信息论中的交叉熵(Cross Entropy，即真实值与预测值的交叉熵)，它与相对熵(Relative Entropy，也称为KL距离或KL散度， Kullback–Leibler divergence.)也非常像。信息熵是对事情的不确定性进行度量，不确定越大，熵越大。交叉熵包含了真实分布的熵加上假设与真实分布不同的分布的不确定性。因此，log-loss是对额外噪声(extra noise)的度量，这个噪声是由于预测值域实际值不同而产生的。因此最小化交叉熵，便是最大化分类器的准确率。

2、精确率-召回率(Precision-Recall)

精确率-召回率其实是两个评价指标。但是它们一般都是同时使用。

精确率是指分类器分类正确的正样本的个数占该分类器所有分类为正样本个数的比例。

召回率是指分类器分类正确的正样本的个数占所有的正样本个数的比例。

F1-score：

F1-score为精确率与召回率的调和平均值，它的值更接近于Precision与Recall中较小的值。即：

F 1 = 2 * p r e c i s i o n * r e c a l l p r e c i s i o n + r e c a l l

3、AUC(Area under the Curve(Receiver Operating Characteristic, ROC))

AUC的全称是Area under the Curve，即曲线下的面积，这条曲线便是ROC曲线，全称为the Receiver Operating Characteristic曲线，它最开始使用是上世纪50年代的电信号分析中，在1978年的“Basic Principles of ROC Analysis ”开始流行起来。ROC曲线描述分类器的True Positive Rate（TPR，分类器分类正确的正样本个数占总正样本个数的比例）与False Positive Rate（FPR，分类器分类错误的负样本个数占总负样本个数的比例）之间的变化关系。
当使用ROC曲线对分类器进行评价时，如果对多个分类器进行比较时，如果直接使用ROC曲线很难去比较，只能通过将ROC分别画出来，然后进行肉眼比较，那么这种方法是非常不便的，因此我们需要一种定量的指标去比较，这个指标便是AUC了，即ROC曲线下的面积，面积越大，分类器的效果越好，AUC的值介于0.5到1.0之间。

AUC（Area Under Curve）被定义为ROC曲线下的面积，也可以认为是ROC曲线下面积占单位面积的比例，显然这个面积的数值不会大于1。又由于ROC曲线一般都处于y=x这条直线的上方，所以AUC的取值范围在0.5和1之间。

对应AUC更大的分类器效果更好。所以AUC是衡量分类器性能的一个很好的度量，并且它不像分类准确率那样，在类别比例差别很大的情况下，依然是很好的度量手段。在欺诈交易检测中，由于欺诈案例是很小的一部分，这时分类准确率就不再是一个良好的度量，而可以使用AUC来度量。

具体如何描绘ROC曲线，如在二分类中，我们需要设定一个阈值，大于阈值分类正类，否则分为负类。因此，我们可以变化阈值，根据不同的阈值进行分类，根据分类结果计算得到ROC空间中的一些点，连接这些点就形成ROC曲线。ROC曲线会经过(0,0)与(1,1)这两点，实际上这两点的连线形成的ROC代表一个随机分类器，一般情况下分类器的ROC曲线会在这条对角连线上方。
在ROC曲线中，点(0,0)表示TPR＝0，FPR＝0，即分类器将每个实例都预测为负类；点(1,1)表示TPR＝1，FPR＝1，即分类器将每个实例都预测为正类；点(0,0)表示TPR＝1，FPR=0，即分类器将每个正类实例都预测为正类，将每个负类实例都预测为负类，这是一个理想模型。

ROC曲线有个很好的特性：当测试集中的正负样本的分布变化的时候，ROC曲线能够保持不变。在实际的数据集中，经常会出现类别不平衡（class imbalance）现象，即负样本比正样本少很多（或者相反），而且测试数据集中的正负样本的分布也可能随时间发生变化。

3）. sklearn.metrics.roc_auc_score(true_y, pred_proba_y)

直接根据真实值（必须是二值）、预测值（可以是0/1, 也可以是proba值）计算出auc值，中间过程的roc计算省略

以下内容转自 http://www.cnblogs.com/zeze/p/6437563.html

什么是AUC？

AUC是指:从一堆样本中随机抽一个，抽到正样本的概率比抽到负样本的概率大的可能性!

　　AUC是一个模型评价指标，只能用于二分类模型的评价，对于二分类模型，还有很多其他评价指标，比如logloss，accuracy，precision。如果你经常关注数据挖掘比赛，比如kaggle，那你会发现AUC和logloss基本是最常见的模型评价指标。

为什么AUC和logloss比accuracy更常用呢？

因为很多机器学习的模型对分类问题的预测结果都是概率，如果要计算accuracy，需要先把概率转化成类别，这就需要手动设置一个阈值，如果对一个样本的预测概率高于这个预测，就把这个样本放进一个类别里面，低于这个阈值，放进另一个类别里面。所以这个阈值很大程度上影响了accuracy的计算。使用AUC或者logloss可以避免把预测概率转换成类别。

AUC是Area under curve的首字母缩写。Area under curve是什么呢，从字面理解，就是一条曲线下面区域的面积。所以我们要先来弄清楚这条曲线是什么。这个曲线有个名字，叫ROC曲线。ROC曲线是统计里面的概率，最早由电子工程师在二战中提出来（更多关于ROC的资料可以参考维基百科）。

　　ROC曲线是基于样本的真实类别和预测概率来画的，具体来说，ROC曲线的x轴是伪阳性率FPR（false positive rate），y轴是真阳性率TPR（true positive rate)。那么问题来了，什么是真、伪阳性率呢？对于二分类问题，一个样本的类别只有两种，我们用0,1分别表示两种类别，0和1也可以分别叫做阴性和阳性。当我们用一个分类器进行概率的预测的时候，对于真实为0的样本，我们可能预测其为0或1，同样对于真实为1的样本，我们也可能预测其为0或1，这样就有四种可能性：

　　真阳性率=（真阳性的数量）/（真阳性的数量+伪阴性的数量）

　　伪阳性率=（伪阳性的数量）/（伪阳性的数量+真阴性的数量）

　我们来看一个具体例子，比如有5个样本：

　　真实的类别（标签）是y=c(1,1,0,0,1)

　　一个分类器预测样本为1的概率是p=c(0.5,0.6,0.55,0.4,0.7)

　　如文章一开始所说，我们需要选定阈值才能把概率转化为类别，选定不同的阈值会得到不同的结果。如果我们选定的阈值为0.1，那5个样本被分进1的类别，如果选定0.3，结果仍然一样。如果选了0.45作为阈值，那么只有样本4被分进0，其余都进入1类。一旦得到了类别，我们就可以计算相应的真、伪阳性率，当我们把所有计算得到的不同真、伪阳性率连起来，就画出了ROC曲线，我们不需要手动做这个，因为很多程序包可以自动计算真、伪阳性率，比如在R里面，下面的代码可以计算以上例子的真、伪阳性率并且画出ROC曲线：

　　通过AUC的定义我们知道了AUC是什么，怎么算，但是它的意义是什么呢。如果从定义来理解AUC的含义，比较困难，实际上AUC和Mann–Whitney U test有密切的联系，我会在第三部说明。从Mann–Whitney U statistic的角度来解释，AUC就是从所有1样本中随机选取一个样本，从所有0样本中随机选取一个样本，然后根据你的分类器对两个随机样本进行预测，把1样本预测为1的概率为p1，把0样本预测为1的概率为p0，p1>p0的概率就等于AUC。所以AUC反应的是分类器对样本的排序能力。根据这个解释，如果我们完全随机的对样本分类，那么AUC应该接近0.5。另外值得注意的是，AUC对样本类别是否均衡并不敏感，这也是不均衡样本通常用AUC评价分类器性能的一个原因。

https://www.zybuluo.com/frank-shaw/note/152851

评价分类器性能指标之AUC、ROC

前言

本文内容大部分来自于如下两个博客：
http://blog.csdn.net/dinosoft/article/details/43114935
http://my.oschina.net/liangtee/blog/340317

引子

假设有下面两个分类器，哪个好？（样本中有A类样本90个，B 类样本10个。）

、	A类样本	B类样本	分类精度
分类器C1	A*90（100%）	A*10（0%）	90%
分类器C2	A70 + B20 （78%）	A5 + B5 （50%）	75%

分类器C1把所有的测试样本都分成了A类，分类器C2把A类的90个样本分对了70个，B类的10个样本分对了5个。

则C1的分类精度为 90%，C2的分类精度为75%，但直觉上，我们感觉C2更有用些。但是依照正确率来衡量的话，那么肯定C1的效果好一点。那么这和我们认为的是不一致的。也就是说，有些时候，仅仅依靠正确率是不妥当的。

我们还需要一个评价指标，能客观反映对正样本、负样本综合预测的能力，还要考虑消除样本倾斜的影响（其实就是归一化之类的思想，实际中很重要，比如pv总是远远大于click），这就是auc指标能解决的问题。

ROC

为了理解auc，我们需要先来弄懂ROC。
先来看一个普遍的二分类问题的结果，预测值和实际值有4种组合情况，看下面的表格：

看图也就可以知道，TPR表示的就是预测正确且实际分类为正的数量与所有正样本的数量的比例。--实际的正样本中，正确预测的比例是多少？

FPR表示的是预测错误且实际分类为负的数量与所有负样本数量的比例。 --实际的负样本当中，错误预测的比例是多少？

可以代入到上面的两个分类器当中，可以得到下面的表格（分类器C1）：

、	预测A	预测B	合计
实际A	90	0	90
实际B	10	0	10

TPR = FPR = 1.0.

分类器C2：

、	预测A	预测B	合计
实际A	70	20	90
实际B	5	5	10

TPR = 0.78， FPR = 0.5

那么，以TPR为纵坐标，FPR为横坐标画图，可以得到：

上图中蓝色表示C1分类器，绿色表示C2分类器。可以知道，这个时候绿色的点比较靠近左上角，可以看做是分类效果较好。所以评估标准改为离左上角近的是好的分类器（考虑了正负样本的综合分类能力）。

一连串这样的点构成了一条曲线，该曲线就是ROC曲线。而ROC曲线下的面积就是AUC（Area under the curve of ROC）。这就是AUC指标的由来。

如何画ROC曲线

对于一个特定的分类器和测试数据集，显然只能得到一个分类结果，即一组FPR和TPR结果，而要得到一个曲线，我们实际上需要一系列FPR和TPR的值才能得到这样的曲线，这又是如何得到的呢？

可以通过分类器的一个重要功能“概率输出”，即表示分类器认为某个样本具有多大的概率属于正样本（或负样本），来动态调整一个样本是否属于正负样本（还记得当时阿里比赛的时候有一个表示被判定为正样本的概率的列么？）

假如我们已经得到了所有样本的概率输出（属于正样本的概率），现在的问题是如何改变这个阈值（概率输出）？我们根据每个测试样本属于正样本的概率值从大到小排序。下图是一个示例，图中共有20个测试样本，“Class”一栏表示每个测试样本真正的标签（p表示正样本，n表示负样本），“Score”表示每个测试样本属于正样本的概率。

接下来，我们从高到低，依次将“Score”值作为阈值，当测试样本属于正样本的概率大于或等于这个阈值时，我们认为它为正样本，否则为负样本。举例来说，对于图中的第4个样本，其“Score”值为0.6，那么样本1，2，3，4都被认为是正样本，因为它们的“Score”值都大于等于0.6，而其他样本则都认为是负样本。每次选取一个不同的阈值，我们就可以得到一组FPR和TPR，即ROC曲线上的一点。这样一来，我们一共得到了20组FPR和TPR的值，将它们画在ROC曲线的结果如下图：

当我们将阈值设置为1和0时，分别可以得到ROC曲线上的(0,0)和(1,1)两个点。将这些(FPR,TPR)对连接起来，就得到了ROC曲线。当阈值取值越多，ROC曲线越平滑。

--在阿里比赛的时候还以为ROC是没用的！！！！真的是有眼无珠啊！！！还是有疑惑的是：如何根据ROC来判定结果的好换呢？看哪个分类器更加接近左上角吧。同时，可以根据ROC来确定划定正样本的概率边界选择在哪里比较合适！！！原来是这样！！！！！！！！！

优雅理解法（下面的与上面的说法有出入？？）

图中的虚线相当于随机预测的结果。不难看出，随着FPR的上升，ROC曲线从原点(0, 0)出发，最终都会落到(1, 1)点。ROC便是其右下方的曲线面积。下图展现了三种AUC的值：

1、现在假设有一个训练好的二分类器对10个正负样本（正例5个，负例5个）预测，得分按高到低排序得到的最好预测结果为[1, 1, 1, 1, 1, 0, 0, 0, 0, 0]，即5个正例均排在5个负例前面，正例排在负例前面的概率为100%。然后绘制其ROC曲线，由于是10个样本，除开原点我们需要描10个点，如下：

描点方式按照样本预测结果的得分高低从左至右开始遍历。从原点开始，每遇到1便向y轴正方向移动y轴最小步长1个单位，这里是1/5=0.2；每遇到0则向x轴正方向移动x轴最小步长1个单位，这里也是0.2。不难看出，上图的AUC等于1，印证了正例排在负例前面的概率的确为100%。

2、我们不妨再举个栗子，预测结果序列为[1, 1, 1, 1, 0, 1, 0, 0, 0, 0]。

计算上图的AUC为0.96与计算正例与排在负例前面的概率0.8 × 1 + 0.2 × 0.8 = 0.96相等，而左上角阴影部分的面积则是负例排在正例前面的概率0.2 × 0.2 = 0.04。

3、再看个栗子，预测结果序列为[1, 1, 1, 0, 1, 0, 1, 0, 0, 0]。

计算上图的AUC为0.88与计算正例与排在负例前面的概率0.6 × 1 + 0.2 × 0.8 + 0.2 × 0.6 = 0.88相等，左上角阴影部分的面积是负例排在正例前面的概率0.2 × 0.2 × 3 = 0.12。

4、混淆矩阵(Confusion Matrix)

混淆矩阵是对分类的结果进行详细描述的一个表，无论是分类正确还是错误，并且对不同的类别进行了区分，对于二分类则是一个2*2的矩阵，对于n分类则是n*n的矩阵。对于二分类，第一行是真实类别为“Positive”的记录个数（样本个数），第二行则是真实类别为“Negative”的记录个数，第一列是预测值为“Positive”的记录个数，第二列则是预测值为“Negative”的记录个数。如下表所示：

	Predicted as Positive	Predicted as Negative
Labeled as Positive	True Positive(TP)	False Negative(FN)
Labeled as Negative	False Positive(FP)	True Negative(TN)

如上表，可以将结果分为四类：
* 真正(True Positive, TP)：被模型分类正确的正样本；
* 假负(False Negative, FN)：被模型分类错误的正样本；
* 假正(False Positive, FP)：被模型分类的负样本；
* 真负(True Negative, TN)：被模型分类正确的负样本；

二、回归评价指标

与分类不同的是，回归是对连续的实数值进行预测，即输出值是连续的实数值，而分类中是离散值。例如，给你历史股票价格，公司与市场的一些信息，需要你去预测将来一段时间内股票的价格走势。那么这个任务便是回归任务。对于回归模型的评价指标主要有以下几种：
1、 RMSE 平方根误差
回归模型中最常用的评价模型便是RMSE（root mean square error，平方根误差），其又被称为RMSD（root mean square deviation），其定义如下：

其中，

yi 是第

i 个样本的真实值，

yi^ 是第

i 个样本的预测值，

n 是样本的个数。该评价指标使用的便是欧式距离。
RMSE虽然广为使用，但是其存在一些缺点，因为它是使用平均误差，而平均值对异常点（outliers）较敏感，如果回归器对某个点的回归值很不理性，那么它的误差则较大，从而会对RMSE的值有较大影响，即平均值是非鲁棒的。

2、Quantiles of Errors --误差的分位数
为了改进RMSE的缺点，提高评价指标的鲁棒性，使用误差的分位数来代替，如中位数来代替平均数。假设100个数，最大的数再怎么改变，中位数也不会变，因此其对异常点具有鲁棒性。
在现实数据中，往往会存在异常点，并且模型可能对异常点拟合得并不好，因此提高评价指标的鲁棒性至关重要，于是可以使用中位数来替代平均数，如MAPE：