(《机器学习》完整版系列)第2章 模型评估与选择 ——2.4 事情有点麻烦:你的考数与别人并列了!

本小节我们换个角度论证【西瓜书式(2.21)】,并结合相关知识展开有趣讨论。
证明分为三部分:
1、高考分数中学生没有并列分数
2、只有一个分数点上有多名学生
3、有多个这样的分数点:该分数点上有多名学生

公式趣证*

本小节我们换个角度论证【西瓜书式(2.21)】,并结合相关知识展开有趣讨论。

假定没有并列分数的样本,在ROC上部( S u S_{\mathrm{u}} Su)区域中任取一个“小矩形”,如图1中的“阴影部分”,则它对应到ROC上有一个横线段和一个竖线段。
图1 ROC上方的一个小矩形

图1 ROC上方的一个小矩形

由ROC的画图规则(“正上走,负右走”),横线段对应一个负例(记为 x − {\boldsymbol{x}^-} x),竖线段对应一个正例(记为 x + {\boldsymbol{x}^+} x+),又由动点行走规则知横线段先于竖线段画出,即 x − {\boldsymbol{x}^-} x排序在 x + {\boldsymbol{x}^+} x+的左侧,用分数表示为: h ( x − ) > h ( x + ) h({\boldsymbol{x}^-})>h({\boldsymbol{x}^+}) h(x)>h(x+)。 因此,ROC上部( S u {S_{\mathrm{u}}} Su)区域中的“小矩形”数为
R c o u n t = ∑ x + ∈ D + ∑ x − ∈ D − I ( h ( x − ) > h ( x + ) ) (1) \mathrm{Rcount}=\sum_{\boldsymbol{x}^+ \in D^+}\sum_{\boldsymbol{x}^- \in D^-}\mathbb{I} (h(\boldsymbol{x}^-)>h(\boldsymbol{x}^+)) \tag{1} Rcount=x+D+xDI(h(x)>h(x+))(1)
再乘以“小矩形”的面积即得【西瓜书式(2.21)】。

为扩展【西瓜书式(2.21)】到有并列分数的情况,我们先做点准备。

将高考分数从高到低排序样本(参见上篇文章)记为 l l l,设排列中有一块 D 0 D_0 D0的分数相同,其余没有分数相同,即有如下排列:
l 中排序: ⋯   , x 0 1 , x 0 2 , ⋯   , x 0 t ⏟ D 0 , x p ⋯ 其中: D 0 = D 0 + ∪ D 0 − ,同分数中既有录取的 D 0 + 又有未录取的 D 0 − \begin{align*} &\text{$l$中排序:}\cdots ,\underbrace{\boldsymbol{x}_0^1,\boldsymbol{x}_0^2,\cdots,\boldsymbol{x}_0^t}_{D_0},\boldsymbol{x}_p\cdots \\ &\quad \text{其中:$D_0=D_0^+\cup D_0^-$,同分数中既有录取的$D_0^+$又有未录取的$D_0^-$} \end{align*} l中排序:,D0 x01,x02,,x0t,xp其中:D0=D0+D0,同分数中既有录取的D0+又有未录取的D0
图2  数据集的分解

图2 数据集的分解

由韦恩图(图2),我们把【西瓜书式(2.21)】的右边的“小矩形”计数进行分解
M = ∑ x + ∈ D + ∑ x − ∈ D − I ( h ( x − ) > h ( x + ) ) = M 1 + M 2 + M 3 + M 4 \begin{align} M & =\sum_{\boldsymbol{x}^+ \in D^+}\sum_{\boldsymbol{x}^- \in D^-}\mathbb{I} (h(\boldsymbol{x}^-)>h(\boldsymbol{x}^+))\notag \\ & =M_1+M_2+M_3+M_4 \tag{2} \end{align} M=x+D+xDI(h(x)>h(x+))=M1+M2+M3+M4(2)
其中
{ M 1 = ∑ x + ∈ D + x + ∉ D 0 + ∑ x − ∈ D − x − ∉ D 0 − I ( h ( x − ) > h ( x + ) ) M 2 = ∑ x + ∈ D + x + ∉ D 0 + ∑ x − ∈ D 0 − I ( h ( x − ) > h ( x + ) ) M 3 = ∑ x + ∈ D 0 + ∑ x − ∈ D − x − ∉ D 0 − I ( h ( x − ) > h ( x + ) ) M 4 = ∑ x + ∈ D 0 + ∑ x − ∈ D 0 − I ( h ( x − ) > h ( x + ) ) (3) \begin{cases} M_1=\sum_{\substack{\boldsymbol{x}^+ \in D^+ \\\boldsymbol{x}^+ \notin D_0^+}}\sum_{\substack{\boldsymbol{x}^- \in D^-\\\boldsymbol{x}^- \notin D_0^-}}\mathbb{I} (h(\boldsymbol{x}^-)>h(\boldsymbol{x}^+)) \\ M_2=\sum_{\substack{\boldsymbol{x}^+ \in D^+ \\\boldsymbol{x}^+ \notin D_0^+}}\sum_{\substack{\boldsymbol{x}^- \in D_0^-}}\mathbb{I} (h(\boldsymbol{x}^-)>h(\boldsymbol{x}^+)) \\ M_3=\sum_{\substack{\boldsymbol{x}^+ \in D_0^+}}\sum_{\substack{\boldsymbol{x}^- \in D^- \\\boldsymbol{x}^- \notin D_0^-}}\mathbb{I} (h(\boldsymbol{x}^-)>h(\boldsymbol{x}^+)) \\ M_4=\sum_{\substack{\boldsymbol{x}^+ \in D_0^+}}\sum_{\substack{\boldsymbol{x}^- \in D_0^-}}\mathbb{I} (h(\boldsymbol{x}^-)>h(\boldsymbol{x}^+)) \end{cases} \tag{3} M1=x+D+x+/D0+xDx/D0I(h(x)>h(x+))M2=x+D+x+/D0+xD0I(h(x)>h(x+))M3=x+D0+xDx/D0I(h(x)>h(x+))M4=x+D0+xD0I(h(x)>h(x+))(3)

注意:式(2)并没有说 R c o u n t = M \mathrm{Rcount}=M Rcount=M,当 h h h给出的分数没有并列样本时,结合式(1),才有等式
R c o u n t = M (当样本分数没有并列时) \begin{align} \mathrm{Rcount}=M\qquad \text{(当样本分数没有并列时)} \tag{4} \end{align} Rcount=M(当样本分数没有并列时)(4)
h h h给出 D 0 D_0 D0中样本的分数一致时,式(3)中式 M 4 = 0 M_4=0 M4=0。 即
M = M 1 + M 2 + M 3 (当 D 0 中样本的分数一致时) \begin{align} M=M_1+M_2+M_3 \qquad \text{(当$D_0$中样本的分数一致时)} \tag{5} \end{align} M=M1+M2+M3(当D0中样本的分数一致时)(5)
D 0 D_0 D0中的样本分数是一致时,这些样本是排在一起的,但是它们的排列次序是自由的,因此,会得到不同的ROC曲线,我们考虑 l l l排序的两种极端情形:最佳排序( D 0 D_0 D0中正例排在负例的左边)和最劣排序( D 0 D_0 D0中正例排在负例的右边)。
l 1 中排序: ⋯   , D 0 + , D 0 − , x p ⋯ l 2 中排序: ⋯   , D 0 − , D 0 + , x p ⋯ \begin{align*} \text{$l_1$中排序:}\cdots ,D_0^+,D_0^-,\boldsymbol{x}_p\cdots \\ \text{$l_2$中排序:}\cdots ,D_0^-,D_0^+,\boldsymbol{x}_p\cdots \end{align*} l1中排序:,D0+,D0,xpl2中排序:,D0,D0+,xp

两条ROC曲线 l 1 l_1 l1 l 2 l_2 l2对应的 M M M分别记为 M l 1 M^{l_1} Ml1 M l 2 M^{l_2} Ml2,其他符号如此类推。

我们对学习器 h h h略作修改,使之分数严格递增。 设 D 0 D_0 D0中样本的分数都为 a a a,紧跟其后的 x p \boldsymbol{x}_p xp的分数为 b b b δ = b − a ∣ D 0 ∣ \delta=\frac{b-a} {|D_0|} δ=D0ba

针对 l 1 l_1 l1定义 h ′ h' h
h ′ ( x ) = { h ( x ) , (当 x ∉ D 0 时) a + i δ , (当 x ∈ D 0 时) 其中: i = 0 , 1 , 2 , ⋯   , ∣ D 0 ∣ − 1 , i 表示 D 0 中次序 \begin{equation} h' (\boldsymbol{x})= \begin{cases} h(\boldsymbol{x}),& \text{(当$\boldsymbol{x} \notin D_0$时)} \\ a+i\delta, &\text{(当$\boldsymbol{x} \in D_0$时)} \\ \qquad \text{其中:}&i=0,1,2,\cdots,|D_0|-1,\text{$i$表示$D_0$中次序} \end{cases} \tag{6} \end{equation} h(x)= h(x),a+iδ,其中:(当x/D0时)(当xD0时)i=0,1,2,,D01,i表示D0中次序(6)

由式(6)知, D 0 D_0 D0中样本以 h ′ h' h打分时,分数依次递增,由于 ( x + ∈ D 0 + ) (\boldsymbol{x}^+ \in D_0^+) (x+D0+) ( x − ∈ D 0 − ) (\boldsymbol{x}^- \in D_0^-) (xD0)的左边,不满足 ( h ′ ( x − ) > h ′ ( x + ) ) (h'(\boldsymbol{x}^-)>h'(\boldsymbol{x}^+)) (h(x)>h(x+)),即 I ( h ′ ( x − ) > h ′ ( x + ) ) = 0 \mathbb{I} (h'(\boldsymbol{x}^-)>h'(\boldsymbol{x}^+))=0 I(h(x)>h(x+))=0,同时,由于该区域内 ( h ( x − ) = h ( x + ) ) (h(\boldsymbol{x}^-)=h(\boldsymbol{x}^+)) (h(x)=h(x+)),即 I ( h ( x − ) > h ( x + ) ) = 0 \mathbb{I} (h(\boldsymbol{x}^-)>h(\boldsymbol{x}^+))=0 I(h(x)>h(x+))=0,故此两方面结合有
M 4 l 1 = ∑ x + ∈ D 0 + ∑ x − ∈ D 0 − I ( h ′ ( x − ) > h ′ ( x + ) ) = ∑ x + ∈ D 0 + ∑ x − ∈ D 0 − 0 = ∑ x + ∈ D 0 + ∑ x − ∈ D 0 − I ( h ( x − ) > h ( x + ) ) \begin{align} M_4^{l_1} & =\sum_{\substack{\boldsymbol{x}^+ \in D_0^+}}\sum_{\substack{\boldsymbol{x}^- \in D_0^-}}\mathbb{I} (h'(\boldsymbol{x}^-)>h'(\boldsymbol{x}^+)) \notag \\ & =\sum_{\substack{\boldsymbol{x}^+ \in D_0^+}}\sum_{\substack{\boldsymbol{x}^- \in D_0^-}}0 \notag \\ & =\sum_{\substack{\boldsymbol{x}^+ \in D_0^+}}\sum_{\substack{\boldsymbol{x}^- \in D_0^-}}\mathbb{I} (h(\boldsymbol{x}^-)>h(\boldsymbol{x}^+)) \tag{7} \end{align} M4l1=x+D0+xD0I(h(x)>h(x+))=x+D0+xD00=x+D0+xD0I(h(x)>h(x+))(7)
由式(3),计算 M 2 l 1 M_2^{l_1} M2l1
M 2 l 1 = ∑ x + ∈ D + x + ∉ D 0 + ∑ x − ∈ D 0 − I ( h ′ ( x − ) > h ′ ( x + ) ) = ∑ x + ∈ D + x + ∉ D 0 + ∑ x − ∈ D 0 − I ( a > h ( x + ) ) (由式(6)及 a 与 b 之间只有 D 0 的样本) = ∑ x + ∈ D + x + ∉ D 0 + ∑ x − ∈ D 0 − I ( h ( x − ) > h ( x + ) ) (因 x − ∈ D 0 − 故 h ( x − ) = a ) \begin{align} M_2^{l_1} & =\sum_{\substack{\boldsymbol{x}^+ \in D^+ \\\boldsymbol{x}^+ \notin D_0^+}}\sum_{\substack{\boldsymbol{x}^- \in D_0^-}}\mathbb{I} (h'(\boldsymbol{x}^-)>h'(\boldsymbol{x}^+)) \notag\\ & =\sum_{\substack{\boldsymbol{x}^+ \in D^+ \\\boldsymbol{x}^+ \notin D_0^+}}\sum_{\substack{\boldsymbol{x}^- \in D_0^-}}\mathbb{I} (a>h(\boldsymbol{x}^+))\quad\text{(由式(6)及$a$与$b$之间只有$D_0$的样本)} \notag\\ & =\sum_{\substack{\boldsymbol{x}^+ \in D^+ \\\boldsymbol{x}^+ \notin D_0^+}}\sum_{\substack{\boldsymbol{x}^- \in D_0^-}}\mathbb{I} (h(\boldsymbol{x}^-)>h(\boldsymbol{x}^+))\quad\text{(因$\boldsymbol{x}^- \in D_0^-$故$h(\boldsymbol{x}^-)=a$)} \tag{8} \end{align} M2l1=x+D+x+/D0+xD0I(h(x)>h(x+))=x+D+x+/D0+xD0I(a>h(x+))(由式(6)ab之间只有D0的样本)=x+D+x+/D0+xD0I(h(x)>h(x+))(因xD0h(x)=a(8)
同样,计算 M 1 l 1 M_1^{l_1} M1l1 M 3 l 1 M_3^{l_1} M3l1,有
M 1 l 1 = ∑ x + ∈ D + x + ∉ D 0 + ∑ x − ∈ D − x − ∉ D 0 − I ( h ( x − ) > h ( x + ) ) \begin{align} M_1^{l_1} & =\sum_{\substack{\boldsymbol{x}^+ \in D^+ \\ \boldsymbol{x}^+ \notin D_0^+}}\sum_{\substack{\boldsymbol{x}^- \in D^-\\ \boldsymbol{x}^- \notin D_0^-}}\mathbb{I} (h(\boldsymbol{x}^-)>h(\boldsymbol{x}^+)) \tag{9} \end{align} M1l1=x+D+x+/D0+xDx/D0I(h(x)>h(x+))(9)

M 3 l 1 = ∑ x + ∈ D 0 + ∑ x − ∈ D − x − ∉ D 0 − I ( h ( x − ) > h ( x + ) ) \begin{align} M_3^{l_1} & =\sum_{\substack{\boldsymbol{x}^+ \in D_0^+}}\sum_{\substack{\boldsymbol{x}^- \in D^- \\\boldsymbol{x}^- \notin D_0^-}}\mathbb{I} (h(\boldsymbol{x}^-)>h(\boldsymbol{x}^+)) \tag{10} \end{align} M3l1=x+D0+xDx/D0I(h(x)>h(x+))(10)

故有
C o u n t ( l 1 ) = M l 1 ( l 1 符合式(4)的条件) = M 1 l 1 + M 2 l 1 + M 3 l 1 + M 4 l 1 (由式(2)) = ( ∑ x + ∈ D + x + ∉ D 0 + ∑ x − ∈ D − x − ∉ D 0 − + ∑ x + ∈ D + x + ∉ D 0 + ∑ x − ∈ D 0 − + ∑ x + ∈ D 0 + ∑ x − ∈ D − x − ∉ D 0 − + ∑ x + ∈ D 0 + ∑ x − ∈ D 0 − ) I ( h ( x − ) > h ( x + ) ) (由式(9),式(8),式(10),式(7)) = ∑ x + ∈ D + ∑ x − ∈ D − I ( h ( x − ) > h ( x + ) ) %\begin{small} \begin{align} & \mathrm{Count}(l_1)\notag \\ & =M^{l_1} \qquad \text{($l_1$符合式(4)的条件)}\notag \\ & =M_1^{l_1}+M_2^{l_1}+M_3^{l_1}+M_4^{l_1}\qquad\text{(由式(2))}\notag \\ & =(\sum_{\substack{\boldsymbol{x}^+ \in D^+ \\\boldsymbol{x}^+ \notin D_0^+}}\sum_{\substack{\boldsymbol{x}^- \in D^-\\\boldsymbol{x}^- \notin D_0^-}} +\sum_{\substack{\boldsymbol{x}^+ \in D^+ \\\boldsymbol{x}^+ \notin D_0^+}}\sum_{\substack{\boldsymbol{x}^- \in D_0^-}} +\sum_{\substack{\boldsymbol{x}^+ \in D_0^+}}\sum_{\substack{\boldsymbol{x}^- \in D^- \\\boldsymbol{x}^- \notin D_0^-}} +\sum_{\substack{\boldsymbol{x}^+ \in D_0^+}}\sum_{\substack{\boldsymbol{x}^- \in D_0^-}} )\mathbb{I} (h(\boldsymbol{x}^-)>h(\boldsymbol{x}^+))\notag \\ & \qquad \text{(由式(9),式(8),式(10),式(7))}\notag \\ & =\sum_{\substack{\boldsymbol{x}^+ \in D^+}}\sum_{\substack{\boldsymbol{x}^- \in D^-}}\mathbb{I} (h(\boldsymbol{x}^-)>h(\boldsymbol{x}^+)) \tag{11} \end{align} %\end{small} Count(l1)=Ml1l1符合式(4)的条件)=M1l1+M2l1+M3l1+M4l1(由式(2)=(x+D+x+/D0+xDx/D0+x+D+x+/D0+xD0+x+D0+xDx/D0+x+D0+xD0)I(h(x)>h(x+))(由式(9),(8),(10),(7)=x+D+xDI(h(x)>h(x+))(11)

同样,针对 l 2 l_2 l2可定义 h ′ ′ h'' h′′,类似地,可得到$ M_1{l_2},M_2{l_2},M_3^{l_2}$有式(9)、式(8)、式(10)一致的式子,即
M 1 l 2 = M 1 l 1 , M 2 l 2 = M 2 l 1 , M 3 l 2 = M 3 l 1 M_1^{l_2}=M_1^{l_1},M_2^{l_2}=M_2^{l_1},M_3^{l_2}=M_3^{l_1} M1l2=M1l1,M2l2=M2l1,M3l2=M3l1,故
M 1 l 2 + M 2 l 2 + M 3 l 2 = M 1 l 1 + M 2 l 1 + M 3 l 1 = M 1 l 1 + M 2 l 1 + M 3 l 1 + M 4 l 1 (由式(7)) = M l 1 \begin{align} M_1^{l_2}+M_2^{l_2}+M_3^{l_2} & =M_1^{l_1}+M_2^{l_1}+M_3^{l_1}\notag \\ & =M_1^{l_1}+M_2^{l_1}+M_3^{l_1}+M_4^{l_1}\qquad\text{(由式(7))}\notag \\ & =M^{l_1} \tag{12} \end{align} M1l2+M2l2+M3l2=M1l1+M2l1+M3l1=M1l1+M2l1+M3l1+M4l1(由式(7)=Ml1(12)
M 4 l 2 M_4^{l_2} M4l2较式(7)复杂, D 0 D_0 D0中样本以 h ′ ′ h'' h′′打分时,分数依次递增,由于 ( x + ∈ D 0 + ) (\boldsymbol{x}^+ \in D_0^+) (x+D0+) ( x − ∈ D 0 − ) (\boldsymbol{x}^- \in D_0^-) (xD0)的右边,满足
( h ′ ′ ( x − ) > h ′ ′ ( x + ) ) (h''(\boldsymbol{x}^-)>h''(\boldsymbol{x}^+)) (h′′(x)>h′′(x+)),即 I ( h ′ ′ ( x − ) > h ′ ′ ( x + ) ) = 1 \mathbb{I} (h''(\boldsymbol{x}^-)>h''(\boldsymbol{x}^+))=1 I(h′′(x)>h′′(x+))=1,故
M 4 l 2 = ∑ x + ∈ D 0 + ∑ x − ∈ D 0 − I ( h ′ ′ ( x − ) > h ′ ′ ( x + ) ) = ∑ x + ∈ D 0 + ∑ x − ∈ D 0 − 1 = ∣ D 0 + ∣ ⋅ ∣ D 0 − ∣ = ∑ x + ∈ D 0 + I ( x + ∈ D 0 + ) ∑ x − ∈ D 0 − I ( x − ∈ D 0 − ) = ∑ x + ∈ D 0 + I ( h ( x + ) = a ) ∑ x − ∈ D 0 − I ( h ( x − ) = a ) = ∑ x + ∈ D + ∑ x − ∈ D − I ( h ( x + ) = a ) I ( h ( x − ) = a ) = ∑ x + ∈ D + ∑ x − ∈ D − I ( h ( x + ) = a ∧ h ( x − ) = a ) = ∑ x + ∈ D + ∑ x − ∈ D − I ( h ( x + ) = h ( x − ) ) \begin{align} M_4^{l_2} & =\sum_{\substack{\boldsymbol{x}^+ \in D_0^+}}\sum_{\substack{\boldsymbol{x}^- \in D_0^-}}\mathbb{I} (h''(\boldsymbol{x}^-)>h''(\boldsymbol{x}^+)) \notag \\ & =\sum_{\substack{\boldsymbol{x}^+ \in D_0^+}}\sum_{\substack{\boldsymbol{x}^- \in D_0^-}}1 \notag \\ & =|D_0^+|\cdot|D_0^-|\notag \\ & =\sum_{\substack{\boldsymbol{x}^+ \in D_0^+}}\mathbb{I} (\boldsymbol{x}^+ \in D_0^+) \sum_{\substack{\boldsymbol{x}^- \in D_0^-}}\mathbb{I} (\boldsymbol{x}^- \in D_0^-) \notag \\ & =\sum_{\substack{\boldsymbol{x}^+ \in D_0^+}}\mathbb{I} (h(\boldsymbol{x}^+)=a) \sum_{\substack{\boldsymbol{x}^- \in D_0^-}}\mathbb{I} (h(\boldsymbol{x}^-)=a) \notag \\ & =\sum_{\substack{\boldsymbol{x}^+ \in D^+}}\sum_{\substack{\boldsymbol{x}^- \in D^-}}\mathbb{I} (h(\boldsymbol{x}^+)=a) \mathbb{I} (h(\boldsymbol{x}^-)=a) \notag \\ & =\sum_{\substack{\boldsymbol{x}^+ \in D^+}}\sum_{\substack{\boldsymbol{x}^- \in D^-}}\mathbb{I} (h(\boldsymbol{x}^+)=a \wedge h(\boldsymbol{x}^-)=a) \notag \\ & =\sum_{\substack{\boldsymbol{x}^+ \in D^+}}\sum_{\substack{\boldsymbol{x}^- \in D^-}}\mathbb{I} (h(\boldsymbol{x}^+)= h(\boldsymbol{x}^-)) \tag{13} \end{align} M4l2=x+D0+xD0I(h′′(x)>h′′(x+))=x+D0+xD01=D0+D0=x+D0+I(x+D0+)xD0I(xD0)=x+D0+I(h(x+)=a)xD0I(h(x)=a)=x+D+xDI(h(x+)=a)I(h(x)=a)=x+D+xDI(h(x+)=ah(x)=a)=x+D+xDI(h(x+)=h(x))(13)
M l 2 = M 1 l 2 + M 2 l 2 + M 3 l 2 + M 4 l 2 = M l 1 + M 4 l 2 (由式(12)) \begin{align} M^{l_2} & =M_1^{l_2}+M_2^{l_2}+M_3^{l_2}+M_4^{l_2}\notag \\ & =M^{l_1}+M_4^{l_2}\qquad\text{(由式(12))} \tag{14} \end{align} Ml2=M1l2+M2l2+M3l2+M4l2=Ml1+M4l2(由式(12)(14)

分数相同的子集 D 0 D_0 D0中,样本的任一排序可产生其对称的排序(交换 D 0 + D_0^+ D0+ D 0 − D_0^- D0),故产生的 l l l 具有对称性,即学习器 h h h的平均“小矩形”数的计算只需对两个极端情况( l 1 l_1 l1 l 2 l_2 l2)进行平均,故有
C o u n t ( h ) = C o u n t ( l 1 ) + C o u n t ( l 2 ) 2 = M l 1 + 1 2 M 4 l 2 (由式(14)) = ∑ x + ∈ D + ∑ x − ∈ D − [ I ( h ( x − ) > h ( x − + ) ) + 1 2 I ( h ( x + ) = h ( x − ) ) ] (由式(11)、式(13)) \begin{align} \mathrm{Count}(h) & =\frac{\mathrm{Count}(l_1)+\mathrm{Count}(l_2)}{2}\notag \\ & =M^{l_1}+\frac{1}{2}M_4^{l_2}\qquad\text{(由式(14))}\notag \\ & =\sum_{\substack{\boldsymbol{x}^+ \in D^+}}\sum_{\substack{\boldsymbol{x}^- \in D^-}}[\mathbb{I} (h(\boldsymbol{x}^-)> h(\boldsymbol{x}^-+))+\frac{1}{2}\mathbb{I} (h(\boldsymbol{x}^+)= h(\boldsymbol{x}^-))] \tag{15} \\ & \qquad\text{(由式(11)、式(13))}\notag \end{align} Count(h)=2Count(l1)+Count(l2)=Ml1+21M4l2(由式(14)=x+D+xD[I(h(x)>h(x+))+21I(h(x+)=h(x))](由式(11)、式(13)(15)
式(15)代入下式即为【西瓜书式(2.21)、(2.22)】。
S u h = 1 m + ⋅ 1 m − C o u n t ( h ) A U C = S d h = 1 − S u h \begin{align*} S_{\mathrm{u}}^h=\frac{1}{m^+}\cdot \frac{1}{m^-}\mathrm{Count}(h) \\ \mathrm{AUC}=S_{\mathrm{d}}^h=1-S_{\mathrm{u}}^h \end{align*} Suh=m+1m1Count(h)AUC=Sdh=1Suh
但上面仅针对只有一个分数具有多个样本的情况。
图3  分数相同标记相反(一个“块”)

图3 分数相同标记相反(一个“块”)

如图3所示, 由式(14)及式(13)知, l 1 l_1 l1 l 2 l_2 l2围成的区域中的“小矩形”个数为
C o u n t ( l 2 − l 1 ) = M 4 l 2 = ∑ x + ∈ D + ∑ x − ∈ D − I ( h ( x + ) = h ( x − ) ) \begin{align} \mathrm{Count}(l_2-l_1) & =M_4^{l_2}\notag \\ & =\sum_{\boldsymbol{x}^+ \in D^+}\sum_{\boldsymbol{x}^- \in D^-}\mathbb{I} (h(\boldsymbol{x}^+)=h(\boldsymbol{x}^-)) \tag{16} \end{align} Count(l2l1)=M4l2=x+D+xDI(h(x+)=h(x))(16)

现在设有 k k k个“块”,每个“块”中分数是并列相同的,设第 i i i个“块”为 D i D_i Di分数为 d i d_i di
图4 多个同分数的“块”

图4 多个同分数的“块”

仿前述 式(13)有
D i = ∑ x + ∈ D + ∑ x − ∈ D − I ( h ( x + ) = h ( x − ) = d i ) ∑ i = 1 k D i = ∑ x + ∈ D + ∑ x − ∈ D − ∑ i = 1 k I ( h ( x + ) = h ( x − ) = d i ) = ∑ x + ∈ D + ∑ x − ∈ D − I ( h ( x + ) = h ( x − ) ) \begin{align} D_i & =\sum_{\substack{\boldsymbol{x}^+ \in D^+}}\sum_{\substack{\boldsymbol{x}^- \in D^-}}\mathbb{I} (h(\boldsymbol{x}^+)= h(\boldsymbol{x}^-)=d_i) \notag \\ \sum_{i=1}^kD_i & =\sum_{\substack{\boldsymbol{x}^+ \in D^+}}\sum_{\substack{\boldsymbol{x}^- \in D^-}}\sum_{i=1}^k\mathbb{I} (h(\boldsymbol{x}^+)= h(\boldsymbol{x}^-)=d_i)\notag \\ & =\sum_{\substack{\boldsymbol{x}^+ \in D^+}}\sum_{\substack{\boldsymbol{x}^- \in D^-}}\mathbb{I} (h(\boldsymbol{x}^+)= h(\boldsymbol{x}^-)) \tag{17} \end{align} Dii=1kDi=x+D+xDI(h(x+)=h(x)=di)=x+D+xDi=1kI(h(x+)=h(x)=di)=x+D+xDI(h(x+)=h(x))(17)
仿前述 式(14)有
M l 2 = M l 1 + D 1 + D 2 + ⋯ + D k \begin{align} M^{l_2} & =M^{l_1}+D_1+D_2+\cdots+D_k \tag{18} \end{align} Ml2=Ml1+D1+D2++Dk(18)
C o u n t ( h ) = M l 1 + M l 2 2 = M l 1 + 1 2 ∑ i = 1 k D i = ∑ x + ∈ D + ∑ x − ∈ D − [ I ( h ( x − ) > h ( x − + ) ) + 1 2 I ( h ( x + ) = h ( x − ) ) ] (由式(11)、式(17)) \begin{align} \mathrm{Count}(h) & =\frac{M^{l_1}+M^{l_2}}{2}\notag \\ & =M^{l_1}+\frac{1}{2}\sum_{i=1}^kD_i \notag \\ & =\sum_{\substack{\boldsymbol{x}^+ \in D^+}}\sum_{\substack{\boldsymbol{x}^- \in D^-}}[\mathbb{I} (h(\boldsymbol{x}^-)> h(\boldsymbol{x}^-+))+\frac{1}{2}\mathbb{I} (h(\boldsymbol{x}^+)= h(\boldsymbol{x}^-))] \tag{19} \\ & \qquad\text{(由式(11)、式(17))}\notag \end{align} Count(h)=2Ml1+Ml2=Ml1+21i=1kDi=x+D+xD[I(h(x)>h(x+))+21I(h(x+)=h(x))](由式(11)、式(17)(19)
即多个“块”时的式(19)与一个“块”的式(15)相同。

综上,【西瓜书式(2.21)】【西瓜书式(2.22)】得证。

本文为原创,您可以:

  • 点赞(支持博主)
  • 收藏(待以后看)
  • 转发(他考研或学习,正需要)
  • 评论(或讨论)
  • 引用(支持原创)
  • 不侵权

上一篇:2.3 恭喜:高考你被录取了!
下一篇:2.5 代价的曲线美

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值