AUC及其拓展GAUC
auc的定义
auc用来评估一个分类器的排序质量,它的物理含义:给定一堆正负样本,随机取一个正样本,一个负样本,学习器将正样本排在负样本前面的概率
auc的计算
具体计算方法:给定m个正样本,n个负样本,则总共油m*n对正负样本。对满足如下条件的样本对进行计数:在所有的样本对中,给定一对正样本和负样本,如果该正样本预测为正的概率大于负样本预测为负的概率,则计数为1,累计基数。将计数和除以m*n,即为auc。
auc=∑m∗nI(P正,P负)m∗nauc=\frac{\sum_{m*n} I (P_{正},P_{负})}{m*n}auc=m∗n∑m∗nI(P正,P负) ,其中 I(P正,P负)={1P正>P负0P正<P负0.5P正=P负 I (P_{正},P_{负})=\left\{ \begin{aligned} 1 & & P_{正}>P_{负} \\ 0 & &P_{正}<P_{负} \\ 0.5 & & P_{正}=P_{负} \end{aligned} \right. I(P正,P负)=⎩⎨⎧100.5P正>P负P正<P负P正=P负
给定如下例子,请计算auc。
样本 | 标签 | 预测值 |
---|---|---|
A | 0 | 0.1 |
B | 0 | 0.4 |
C | 1 | 0.35 |
D | 1 | 0.8 |
共有(A,C),(A,D),(B,C),(B,D) 4对样本,其中
- 比0.8小的负样本有0.4,0.1;
- 比0.35小的负样本有0.1
故auc=35=0.75auc=\frac{3}{5}=0.75auc=53=0.75
GAUC
引入gauc的根本原因:auc在某些情况下,并不能反应模型的好坏。它反应的整体排序质量的好坏,没有结合业务具体的特点。gauc是结合具体业务的特点对auc而进行的改进。
ex:以ctr模型为例,在电商场景下,ctr预估在当前的上下文环境下,用户点击某一个商品(sku)的概率。预估ctr,是希望预估不同的物料(不同的商品)在同一份流量下的得分差异