模型评估可以从多维度多指标进行评估。
这里只谈论指标。
我们常用的指标,logloss,mse,auc(GAUC)等等。
其他指标包括gini(2*AUC -1),PRauc,KS(max(TPR−FPR)),acc,precision,F1 score。
对于预估分数的指标包括其分布的值,比如CoV(变异系数),std,avg,等等。还有别的指标,如oe等。
首先,需要明确,这些指标有没有可比性,在什么情况下有。
例如,在ctr预估中,logloss,mse在不同问题,不同数据集,不同评估维度下(数据集分片)没有直接可比性。因为logloss的大小和问题的难度成直接关联(问题越简单,logloss越小。这里指Bayesian Risk,例如一个问题中,ctr大概有2%,那么你预估所有商品都是0.02时,logloss= - 0.02 * ln 0.02 - 0.98 * ln 0.98 = 0.09,而ctr有50%时,盲猜0.5的logloss为0.67),所以,取决于问题,不可直接比。同理,因为一些数据的变化,不同的数据集,不同数据分片,也不具备可比性。
所以一般比较的对象都在相同的数据集上,我们去对比模型的相对差异。比如a模型比b模型logloss小了2%。
这些指标的含义
一般经验上来说,如果二分类(大多数在排序场景运用的话),用auc比较直接。在多分类的情况下,logloss