排序“损失”定义
(本文为个人学习总结笔记)
排序损失loss
形式化地看, AUC考虑的是样本预测的排序质量,因此它与排序误差有紧 密联系.给定 m + m^{+} m+个正例和 m − m^{-} m−个反例?令 D + D^{+} D+和 D − D^{-} D−分别表示正、反例集合, 则排序"损失" (loss)定义为:
ℓ rank = 1 m + m − ∑ x + ∈ D + ∑ x − ∈ D − ( I ( f ( x + ) < f ( x − ) ) + 1 2 I ( f ( x + ) = f ( x − ) ) ) \ell_{\text {rank}}=\frac{1}{m^{+} m^{-}} \sum_{x^{+} \in D^{+}} \sum_{x^{-} \in D^{-}}\left(\mathbb{I}\left(f\left(\boldsymbol{x}^{+}\right)<f\left(\boldsymbol{x}^{-}\right)\right)+\frac{1}{2} \mathbb{I}\left(f\left(\boldsymbol{x}^{+}\right)=f\left(\boldsymbol{x}^{-}\right)\right)\right) ℓrank=m+m−1x+∈D+∑x−∈D−∑(I(f(x+)<f(x−))+21I(f(x+)=f(x−)))
l
rank
l_{\text {rank}}
lrank即为ROC曲线上的面积,如下: