AUC及其拓展GAUC
auc的定义
auc用来评估一个分类器的排序质量,它的物理含义:给定一堆正负样本,随机取一个正样本,一个负样本,学习器将正样本排在负样本前面的概率
auc的计算
具体计算方法:给定m个正样本,n个负样本,则总共油m*n对正负样本。对满足如下条件的样本对进行计数:在所有的样本对中,给定一对正样本和负样本,如果该正样本预测为正的概率大于负样本预测为负的概率,则计数为1,累计基数。将计数和除以m*n,即为auc。
a u c = ∑ m ∗ n I ( P 正 , P 负 ) m ∗ n auc=\frac{\sum_{m*n} I (P_{正},P_{负})}{m*n} auc=m∗n∑m∗nI(P正,P负) ,其中 I ( P 正 , P 负 ) = { 1 P 正 > P 负 0 P 正 < P 负 0.5 P 正 = P 负 I (P_{正},P_{负})=\left\{ \begin{aligned} 1 & & P_{正}>P_{负} \\ 0 & &P_{正}<P_{负} \\ 0.5 & & P_{正}=P_{负} \end{aligned} \right. I(P正,P负)=⎩ ⎨ ⎧100.5P正>P负P正<P负P正=P负
给定如下例子,请计算auc。
样本 | 标签 | 预测值 |
---|---|---|
A | 0 | 0.1 |
B | 0 | 0.4 |
C | 1 | 0.35 |
D | 1 | 0.8 |
共有(A,C),(A,D),(B,C),(B,D) 4对样本,其中
- 比0.8小的负样本有0.4,0.1;
- 比0.35小的负样本有0.1
故 a u c = 3 5 = 0.75 auc=\frac{3}{5}=0.75 auc=53=0.75
GAUC
引入gauc的根本原因:auc在某些情况下,并不能反应模型的好坏。它反应的整体排序质量的好坏,没有结合业务具体的特点。gauc是结合具体业务的特点对auc而进行的改进。
ex:以ctr模型为例,在电商场景下,ctr预估在当前的上下文环境下,用户点击某一个商品(sku)的概率。预估ctr,是希望预估不同的物料(不同的商品)在同一份流量下的得分差异