本小节我们换个角度论证【西瓜书式(2.21)】,并结合相关知识展开有趣讨论。
证明分为三部分:
1、高考分数中学生没有并列分数
2、只有一个分数点上有多名学生
3、有多个这样的分数点:该分数点上有多名学生
公式趣证*
本小节我们换个角度论证【西瓜书式(2.21)】,并结合相关知识展开有趣讨论。
假定没有并列分数的样本,在ROC上部(
S
u
S_{\mathrm{u}}
Su)区域中任取一个“小矩形”,如图1中的“阴影部分”,则它对应到ROC上有一个横线段和一个竖线段。
由ROC的画图规则(“正上走,负右走”),横线段对应一个负例(记为
x
−
{\boldsymbol{x}^-}
x−),竖线段对应一个正例(记为
x
+
{\boldsymbol{x}^+}
x+),又由动点行走规则知横线段先于竖线段画出,即
x
−
{\boldsymbol{x}^-}
x−排序在
x
+
{\boldsymbol{x}^+}
x+的左侧,用分数表示为:
h
(
x
−
)
>
h
(
x
+
)
h({\boldsymbol{x}^-})>h({\boldsymbol{x}^+})
h(x−)>h(x+)。 因此,ROC上部(
S
u
{S_{\mathrm{u}}}
Su)区域中的“小矩形”数为
R
c
o
u
n
t
=
∑
x
+
∈
D
+
∑
x
−
∈
D
−
I
(
h
(
x
−
)
>
h
(
x
+
)
)
(1)
\mathrm{Rcount}=\sum_{\boldsymbol{x}^+ \in D^+}\sum_{\boldsymbol{x}^- \in D^-}\mathbb{I} (h(\boldsymbol{x}^-)>h(\boldsymbol{x}^+)) \tag{1}
Rcount=x+∈D+∑x−∈D−∑I(h(x−)>h(x+))(1)
再乘以“小矩形”的面积即得【西瓜书式(2.21)】。
为扩展【西瓜书式(2.21)】到有并列分数的情况,我们先做点准备。
将高考分数从高到低排序样本(参见上篇文章)记为
l
l
l,设排列中有一块
D
0
D_0
D0的分数相同,其余没有分数相同,即有如下排列:
l
中排序:
⋯
,
x
0
1
,
x
0
2
,
⋯
,
x
0
t
⏟
D
0
,
x
p
⋯
其中:
D
0
=
D
0
+
∪
D
0
−
,同分数中既有录取的
D
0
+
又有未录取的
D
0
−
\begin{align*} &\text{$l$中排序:}\cdots ,\underbrace{\boldsymbol{x}_0^1,\boldsymbol{x}_0^2,\cdots,\boldsymbol{x}_0^t}_{D_0},\boldsymbol{x}_p\cdots \\ &\quad \text{其中:$D_0=D_0^+\cup D_0^-$,同分数中既有录取的$D_0^+$又有未录取的$D_0^-$} \end{align*}
l中排序:⋯,D0
x01,x02,⋯,x0t,xp⋯其中:D0=D0+∪D0−,同分数中既有录取的D0+又有未录取的D0−
由韦恩图(图2),我们把【西瓜书式(2.21)】的右边的“小矩形”计数进行分解
M
=
∑
x
+
∈
D
+
∑
x
−
∈
D
−
I
(
h
(
x
−
)
>
h
(
x
+
)
)
=
M
1
+
M
2
+
M
3
+
M
4
\begin{align} M & =\sum_{\boldsymbol{x}^+ \in D^+}\sum_{\boldsymbol{x}^- \in D^-}\mathbb{I} (h(\boldsymbol{x}^-)>h(\boldsymbol{x}^+))\notag \\ & =M_1+M_2+M_3+M_4 \tag{2} \end{align}
M=x+∈D+∑x−∈D−∑I(h(x−)>h(x+))=M1+M2+M3+M4(2)
其中
{
M
1
=
∑
x
+
∈
D
+
x
+
∉
D
0
+
∑
x
−
∈
D
−
x
−
∉
D
0
−
I
(
h
(
x
−
)
>
h
(
x
+
)
)
M
2
=
∑
x
+
∈
D
+
x
+
∉
D
0
+
∑
x
−
∈
D
0
−
I
(
h
(
x
−
)
>
h
(
x
+
)
)
M
3
=
∑
x
+
∈
D
0
+
∑
x
−
∈
D
−
x
−
∉
D
0
−
I
(
h
(
x
−
)
>
h
(
x
+
)
)
M
4
=
∑
x
+
∈
D
0
+
∑
x
−
∈
D
0
−
I
(
h
(
x
−
)
>
h
(
x
+
)
)
(3)
\begin{cases} M_1=\sum_{\substack{\boldsymbol{x}^+ \in D^+ \\\boldsymbol{x}^+ \notin D_0^+}}\sum_{\substack{\boldsymbol{x}^- \in D^-\\\boldsymbol{x}^- \notin D_0^-}}\mathbb{I} (h(\boldsymbol{x}^-)>h(\boldsymbol{x}^+)) \\ M_2=\sum_{\substack{\boldsymbol{x}^+ \in D^+ \\\boldsymbol{x}^+ \notin D_0^+}}\sum_{\substack{\boldsymbol{x}^- \in D_0^-}}\mathbb{I} (h(\boldsymbol{x}^-)>h(\boldsymbol{x}^+)) \\ M_3=\sum_{\substack{\boldsymbol{x}^+ \in D_0^+}}\sum_{\substack{\boldsymbol{x}^- \in D^- \\\boldsymbol{x}^- \notin D_0^-}}\mathbb{I} (h(\boldsymbol{x}^-)>h(\boldsymbol{x}^+)) \\ M_4=\sum_{\substack{\boldsymbol{x}^+ \in D_0^+}}\sum_{\substack{\boldsymbol{x}^- \in D_0^-}}\mathbb{I} (h(\boldsymbol{x}^-)>h(\boldsymbol{x}^+)) \end{cases} \tag{3}
⎩
⎨
⎧M1=∑x+∈D+x+∈/D0+∑x−∈D−x−∈/D0−I(h(x−)>h(x+))M2=∑x+∈D+x+∈/D0+∑x−∈D0−I(h(x−)>h(x+))M3=∑x+∈D0+∑x−∈D−x−∈/D0−I(h(x−)>h(x+))M4=∑x+∈D0+∑x−∈D0−I(h(x−)>h(x+))(3)
注意:式(2)并没有说
R
c
o
u
n
t
=
M
\mathrm{Rcount}=M
Rcount=M,当
h
h
h给出的分数没有并列样本时,结合式(1),才有等式
R
c
o
u
n
t
=
M
(当样本分数没有并列时)
\begin{align} \mathrm{Rcount}=M\qquad \text{(当样本分数没有并列时)} \tag{4} \end{align}
Rcount=M(当样本分数没有并列时)(4)
当
h
h
h给出
D
0
D_0
D0中样本的分数一致时,式(3)中式
M
4
=
0
M_4=0
M4=0。 即
M
=
M
1
+
M
2
+
M
3
(当
D
0
中样本的分数一致时)
\begin{align} M=M_1+M_2+M_3 \qquad \text{(当$D_0$中样本的分数一致时)} \tag{5} \end{align}
M=M1+M2+M3(当D0中样本的分数一致时)(5)
当
D
0
D_0
D0中的样本分数是一致时,这些样本是排在一起的,但是它们的排列次序是自由的,因此,会得到不同的ROC曲线,我们考虑
l
l
l排序的两种极端情形:最佳排序(
D
0
D_0
D0中正例排在负例的左边)和最劣排序(
D
0
D_0
D0中正例排在负例的右边)。
l
1
中排序:
⋯
,
D
0
+
,
D
0
−
,
x
p
⋯
l
2
中排序:
⋯
,
D
0
−
,
D
0
+
,
x
p
⋯
\begin{align*} \text{$l_1$中排序:}\cdots ,D_0^+,D_0^-,\boldsymbol{x}_p\cdots \\ \text{$l_2$中排序:}\cdots ,D_0^-,D_0^+,\boldsymbol{x}_p\cdots \end{align*}
l1中排序:⋯,D0+,D0−,xp⋯l2中排序:⋯,D0−,D0+,xp⋯
两条ROC曲线 l 1 l_1 l1和 l 2 l_2 l2对应的 M M M分别记为 M l 1 M^{l_1} Ml1和 M l 2 M^{l_2} Ml2,其他符号如此类推。
我们对学习器 h h h略作修改,使之分数严格递增。 设 D 0 D_0 D0中样本的分数都为 a a a,紧跟其后的 x p \boldsymbol{x}_p xp的分数为 b b b, δ = b − a ∣ D 0 ∣ \delta=\frac{b-a} {|D_0|} δ=∣D0∣b−a
针对
l
1
l_1
l1定义
h
′
h'
h′:
h
′
(
x
)
=
{
h
(
x
)
,
(当
x
∉
D
0
时)
a
+
i
δ
,
(当
x
∈
D
0
时)
其中:
i
=
0
,
1
,
2
,
⋯
,
∣
D
0
∣
−
1
,
i
表示
D
0
中次序
\begin{equation} h' (\boldsymbol{x})= \begin{cases} h(\boldsymbol{x}),& \text{(当$\boldsymbol{x} \notin D_0$时)} \\ a+i\delta, &\text{(当$\boldsymbol{x} \in D_0$时)} \\ \qquad \text{其中:}&i=0,1,2,\cdots,|D_0|-1,\text{$i$表示$D_0$中次序} \end{cases} \tag{6} \end{equation}
h′(x)=⎩
⎨
⎧h(x),a+iδ,其中:(当x∈/D0时)(当x∈D0时)i=0,1,2,⋯,∣D0∣−1,i表示D0中次序(6)
由式(6)知,
D
0
D_0
D0中样本以
h
′
h'
h′打分时,分数依次递增,由于
(
x
+
∈
D
0
+
)
(\boldsymbol{x}^+ \in D_0^+)
(x+∈D0+)在
(
x
−
∈
D
0
−
)
(\boldsymbol{x}^- \in D_0^-)
(x−∈D0−)的左边,不满足
(
h
′
(
x
−
)
>
h
′
(
x
+
)
)
(h'(\boldsymbol{x}^-)>h'(\boldsymbol{x}^+))
(h′(x−)>h′(x+)),即
I
(
h
′
(
x
−
)
>
h
′
(
x
+
)
)
=
0
\mathbb{I} (h'(\boldsymbol{x}^-)>h'(\boldsymbol{x}^+))=0
I(h′(x−)>h′(x+))=0,同时,由于该区域内
(
h
(
x
−
)
=
h
(
x
+
)
)
(h(\boldsymbol{x}^-)=h(\boldsymbol{x}^+))
(h(x−)=h(x+)),即
I
(
h
(
x
−
)
>
h
(
x
+
)
)
=
0
\mathbb{I} (h(\boldsymbol{x}^-)>h(\boldsymbol{x}^+))=0
I(h(x−)>h(x+))=0,故此两方面结合有
M
4
l
1
=
∑
x
+
∈
D
0
+
∑
x
−
∈
D
0
−
I
(
h
′
(
x
−
)
>
h
′
(
x
+
)
)
=
∑
x
+
∈
D
0
+
∑
x
−
∈
D
0
−
0
=
∑
x
+
∈
D
0
+
∑
x
−
∈
D
0
−
I
(
h
(
x
−
)
>
h
(
x
+
)
)
\begin{align} M_4^{l_1} & =\sum_{\substack{\boldsymbol{x}^+ \in D_0^+}}\sum_{\substack{\boldsymbol{x}^- \in D_0^-}}\mathbb{I} (h'(\boldsymbol{x}^-)>h'(\boldsymbol{x}^+)) \notag \\ & =\sum_{\substack{\boldsymbol{x}^+ \in D_0^+}}\sum_{\substack{\boldsymbol{x}^- \in D_0^-}}0 \notag \\ & =\sum_{\substack{\boldsymbol{x}^+ \in D_0^+}}\sum_{\substack{\boldsymbol{x}^- \in D_0^-}}\mathbb{I} (h(\boldsymbol{x}^-)>h(\boldsymbol{x}^+)) \tag{7} \end{align}
M4l1=x+∈D0+∑x−∈D0−∑I(h′(x−)>h′(x+))=x+∈D0+∑x−∈D0−∑0=x+∈D0+∑x−∈D0−∑I(h(x−)>h(x+))(7)
由式(3),计算
M
2
l
1
M_2^{l_1}
M2l1:
M
2
l
1
=
∑
x
+
∈
D
+
x
+
∉
D
0
+
∑
x
−
∈
D
0
−
I
(
h
′
(
x
−
)
>
h
′
(
x
+
)
)
=
∑
x
+
∈
D
+
x
+
∉
D
0
+
∑
x
−
∈
D
0
−
I
(
a
>
h
(
x
+
)
)
(由式(6)及
a
与
b
之间只有
D
0
的样本)
=
∑
x
+
∈
D
+
x
+
∉
D
0
+
∑
x
−
∈
D
0
−
I
(
h
(
x
−
)
>
h
(
x
+
)
)
(因
x
−
∈
D
0
−
故
h
(
x
−
)
=
a
)
\begin{align} M_2^{l_1} & =\sum_{\substack{\boldsymbol{x}^+ \in D^+ \\\boldsymbol{x}^+ \notin D_0^+}}\sum_{\substack{\boldsymbol{x}^- \in D_0^-}}\mathbb{I} (h'(\boldsymbol{x}^-)>h'(\boldsymbol{x}^+)) \notag\\ & =\sum_{\substack{\boldsymbol{x}^+ \in D^+ \\\boldsymbol{x}^+ \notin D_0^+}}\sum_{\substack{\boldsymbol{x}^- \in D_0^-}}\mathbb{I} (a>h(\boldsymbol{x}^+))\quad\text{(由式(6)及$a$与$b$之间只有$D_0$的样本)} \notag\\ & =\sum_{\substack{\boldsymbol{x}^+ \in D^+ \\\boldsymbol{x}^+ \notin D_0^+}}\sum_{\substack{\boldsymbol{x}^- \in D_0^-}}\mathbb{I} (h(\boldsymbol{x}^-)>h(\boldsymbol{x}^+))\quad\text{(因$\boldsymbol{x}^- \in D_0^-$故$h(\boldsymbol{x}^-)=a$)} \tag{8} \end{align}
M2l1=x+∈D+x+∈/D0+∑x−∈D0−∑I(h′(x−)>h′(x+))=x+∈D+x+∈/D0+∑x−∈D0−∑I(a>h(x+))(由式(6)及a与b之间只有D0的样本)=x+∈D+x+∈/D0+∑x−∈D0−∑I(h(x−)>h(x+))(因x−∈D0−故h(x−)=a)(8)
同样,计算
M
1
l
1
M_1^{l_1}
M1l1、
M
3
l
1
M_3^{l_1}
M3l1,有
M
1
l
1
=
∑
x
+
∈
D
+
x
+
∉
D
0
+
∑
x
−
∈
D
−
x
−
∉
D
0
−
I
(
h
(
x
−
)
>
h
(
x
+
)
)
\begin{align} M_1^{l_1} & =\sum_{\substack{\boldsymbol{x}^+ \in D^+ \\ \boldsymbol{x}^+ \notin D_0^+}}\sum_{\substack{\boldsymbol{x}^- \in D^-\\ \boldsymbol{x}^- \notin D_0^-}}\mathbb{I} (h(\boldsymbol{x}^-)>h(\boldsymbol{x}^+)) \tag{9} \end{align}
M1l1=x+∈D+x+∈/D0+∑x−∈D−x−∈/D0−∑I(h(x−)>h(x+))(9)
M 3 l 1 = ∑ x + ∈ D 0 + ∑ x − ∈ D − x − ∉ D 0 − I ( h ( x − ) > h ( x + ) ) \begin{align} M_3^{l_1} & =\sum_{\substack{\boldsymbol{x}^+ \in D_0^+}}\sum_{\substack{\boldsymbol{x}^- \in D^- \\\boldsymbol{x}^- \notin D_0^-}}\mathbb{I} (h(\boldsymbol{x}^-)>h(\boldsymbol{x}^+)) \tag{10} \end{align} M3l1=x+∈D0+∑x−∈D−x−∈/D0−∑I(h(x−)>h(x+))(10)
故有
C
o
u
n
t
(
l
1
)
=
M
l
1
(
l
1
符合式(4)的条件)
=
M
1
l
1
+
M
2
l
1
+
M
3
l
1
+
M
4
l
1
(由式(2))
=
(
∑
x
+
∈
D
+
x
+
∉
D
0
+
∑
x
−
∈
D
−
x
−
∉
D
0
−
+
∑
x
+
∈
D
+
x
+
∉
D
0
+
∑
x
−
∈
D
0
−
+
∑
x
+
∈
D
0
+
∑
x
−
∈
D
−
x
−
∉
D
0
−
+
∑
x
+
∈
D
0
+
∑
x
−
∈
D
0
−
)
I
(
h
(
x
−
)
>
h
(
x
+
)
)
(由式(9),式(8),式(10),式(7))
=
∑
x
+
∈
D
+
∑
x
−
∈
D
−
I
(
h
(
x
−
)
>
h
(
x
+
)
)
%\begin{small} \begin{align} & \mathrm{Count}(l_1)\notag \\ & =M^{l_1} \qquad \text{($l_1$符合式(4)的条件)}\notag \\ & =M_1^{l_1}+M_2^{l_1}+M_3^{l_1}+M_4^{l_1}\qquad\text{(由式(2))}\notag \\ & =(\sum_{\substack{\boldsymbol{x}^+ \in D^+ \\\boldsymbol{x}^+ \notin D_0^+}}\sum_{\substack{\boldsymbol{x}^- \in D^-\\\boldsymbol{x}^- \notin D_0^-}} +\sum_{\substack{\boldsymbol{x}^+ \in D^+ \\\boldsymbol{x}^+ \notin D_0^+}}\sum_{\substack{\boldsymbol{x}^- \in D_0^-}} +\sum_{\substack{\boldsymbol{x}^+ \in D_0^+}}\sum_{\substack{\boldsymbol{x}^- \in D^- \\\boldsymbol{x}^- \notin D_0^-}} +\sum_{\substack{\boldsymbol{x}^+ \in D_0^+}}\sum_{\substack{\boldsymbol{x}^- \in D_0^-}} )\mathbb{I} (h(\boldsymbol{x}^-)>h(\boldsymbol{x}^+))\notag \\ & \qquad \text{(由式(9),式(8),式(10),式(7))}\notag \\ & =\sum_{\substack{\boldsymbol{x}^+ \in D^+}}\sum_{\substack{\boldsymbol{x}^- \in D^-}}\mathbb{I} (h(\boldsymbol{x}^-)>h(\boldsymbol{x}^+)) \tag{11} \end{align} %\end{small}
Count(l1)=Ml1(l1符合式(4)的条件)=M1l1+M2l1+M3l1+M4l1(由式(2))=(x+∈D+x+∈/D0+∑x−∈D−x−∈/D0−∑+x+∈D+x+∈/D0+∑x−∈D0−∑+x+∈D0+∑x−∈D−x−∈/D0−∑+x+∈D0+∑x−∈D0−∑)I(h(x−)>h(x+))(由式(9),式(8),式(10),式(7))=x+∈D+∑x−∈D−∑I(h(x−)>h(x+))(11)
同样,针对
l
2
l_2
l2可定义
h
′
′
h''
h′′,类似地,可得到$ M_1{l_2},M_2{l_2},M_3^{l_2}$有式(9)、式(8)、式(10)一致的式子,即
M
1
l
2
=
M
1
l
1
,
M
2
l
2
=
M
2
l
1
,
M
3
l
2
=
M
3
l
1
M_1^{l_2}=M_1^{l_1},M_2^{l_2}=M_2^{l_1},M_3^{l_2}=M_3^{l_1}
M1l2=M1l1,M2l2=M2l1,M3l2=M3l1,故
M
1
l
2
+
M
2
l
2
+
M
3
l
2
=
M
1
l
1
+
M
2
l
1
+
M
3
l
1
=
M
1
l
1
+
M
2
l
1
+
M
3
l
1
+
M
4
l
1
(由式(7))
=
M
l
1
\begin{align} M_1^{l_2}+M_2^{l_2}+M_3^{l_2} & =M_1^{l_1}+M_2^{l_1}+M_3^{l_1}\notag \\ & =M_1^{l_1}+M_2^{l_1}+M_3^{l_1}+M_4^{l_1}\qquad\text{(由式(7))}\notag \\ & =M^{l_1} \tag{12} \end{align}
M1l2+M2l2+M3l2=M1l1+M2l1+M3l1=M1l1+M2l1+M3l1+M4l1(由式(7))=Ml1(12)
但
M
4
l
2
M_4^{l_2}
M4l2较式(7)复杂,
D
0
D_0
D0中样本以
h
′
′
h''
h′′打分时,分数依次递增,由于
(
x
+
∈
D
0
+
)
(\boldsymbol{x}^+ \in D_0^+)
(x+∈D0+)在
(
x
−
∈
D
0
−
)
(\boldsymbol{x}^- \in D_0^-)
(x−∈D0−)的右边,满足
(
h
′
′
(
x
−
)
>
h
′
′
(
x
+
)
)
(h''(\boldsymbol{x}^-)>h''(\boldsymbol{x}^+))
(h′′(x−)>h′′(x+)),即
I
(
h
′
′
(
x
−
)
>
h
′
′
(
x
+
)
)
=
1
\mathbb{I} (h''(\boldsymbol{x}^-)>h''(\boldsymbol{x}^+))=1
I(h′′(x−)>h′′(x+))=1,故
M
4
l
2
=
∑
x
+
∈
D
0
+
∑
x
−
∈
D
0
−
I
(
h
′
′
(
x
−
)
>
h
′
′
(
x
+
)
)
=
∑
x
+
∈
D
0
+
∑
x
−
∈
D
0
−
1
=
∣
D
0
+
∣
⋅
∣
D
0
−
∣
=
∑
x
+
∈
D
0
+
I
(
x
+
∈
D
0
+
)
∑
x
−
∈
D
0
−
I
(
x
−
∈
D
0
−
)
=
∑
x
+
∈
D
0
+
I
(
h
(
x
+
)
=
a
)
∑
x
−
∈
D
0
−
I
(
h
(
x
−
)
=
a
)
=
∑
x
+
∈
D
+
∑
x
−
∈
D
−
I
(
h
(
x
+
)
=
a
)
I
(
h
(
x
−
)
=
a
)
=
∑
x
+
∈
D
+
∑
x
−
∈
D
−
I
(
h
(
x
+
)
=
a
∧
h
(
x
−
)
=
a
)
=
∑
x
+
∈
D
+
∑
x
−
∈
D
−
I
(
h
(
x
+
)
=
h
(
x
−
)
)
\begin{align} M_4^{l_2} & =\sum_{\substack{\boldsymbol{x}^+ \in D_0^+}}\sum_{\substack{\boldsymbol{x}^- \in D_0^-}}\mathbb{I} (h''(\boldsymbol{x}^-)>h''(\boldsymbol{x}^+)) \notag \\ & =\sum_{\substack{\boldsymbol{x}^+ \in D_0^+}}\sum_{\substack{\boldsymbol{x}^- \in D_0^-}}1 \notag \\ & =|D_0^+|\cdot|D_0^-|\notag \\ & =\sum_{\substack{\boldsymbol{x}^+ \in D_0^+}}\mathbb{I} (\boldsymbol{x}^+ \in D_0^+) \sum_{\substack{\boldsymbol{x}^- \in D_0^-}}\mathbb{I} (\boldsymbol{x}^- \in D_0^-) \notag \\ & =\sum_{\substack{\boldsymbol{x}^+ \in D_0^+}}\mathbb{I} (h(\boldsymbol{x}^+)=a) \sum_{\substack{\boldsymbol{x}^- \in D_0^-}}\mathbb{I} (h(\boldsymbol{x}^-)=a) \notag \\ & =\sum_{\substack{\boldsymbol{x}^+ \in D^+}}\sum_{\substack{\boldsymbol{x}^- \in D^-}}\mathbb{I} (h(\boldsymbol{x}^+)=a) \mathbb{I} (h(\boldsymbol{x}^-)=a) \notag \\ & =\sum_{\substack{\boldsymbol{x}^+ \in D^+}}\sum_{\substack{\boldsymbol{x}^- \in D^-}}\mathbb{I} (h(\boldsymbol{x}^+)=a \wedge h(\boldsymbol{x}^-)=a) \notag \\ & =\sum_{\substack{\boldsymbol{x}^+ \in D^+}}\sum_{\substack{\boldsymbol{x}^- \in D^-}}\mathbb{I} (h(\boldsymbol{x}^+)= h(\boldsymbol{x}^-)) \tag{13} \end{align}
M4l2=x+∈D0+∑x−∈D0−∑I(h′′(x−)>h′′(x+))=x+∈D0+∑x−∈D0−∑1=∣D0+∣⋅∣D0−∣=x+∈D0+∑I(x+∈D0+)x−∈D0−∑I(x−∈D0−)=x+∈D0+∑I(h(x+)=a)x−∈D0−∑I(h(x−)=a)=x+∈D+∑x−∈D−∑I(h(x+)=a)I(h(x−)=a)=x+∈D+∑x−∈D−∑I(h(x+)=a∧h(x−)=a)=x+∈D+∑x−∈D−∑I(h(x+)=h(x−))(13)
M
l
2
=
M
1
l
2
+
M
2
l
2
+
M
3
l
2
+
M
4
l
2
=
M
l
1
+
M
4
l
2
(由式(12))
\begin{align} M^{l_2} & =M_1^{l_2}+M_2^{l_2}+M_3^{l_2}+M_4^{l_2}\notag \\ & =M^{l_1}+M_4^{l_2}\qquad\text{(由式(12))} \tag{14} \end{align}
Ml2=M1l2+M2l2+M3l2+M4l2=Ml1+M4l2(由式(12))(14)
分数相同的子集
D
0
D_0
D0中,样本的任一排序可产生其对称的排序(交换
D
0
+
D_0^+
D0+与
D
0
−
D_0^-
D0−),故产生的
l
l
l 具有对称性,即学习器
h
h
h的平均“小矩形”数的计算只需对两个极端情况(
l
1
l_1
l1及
l
2
l_2
l2)进行平均,故有
C
o
u
n
t
(
h
)
=
C
o
u
n
t
(
l
1
)
+
C
o
u
n
t
(
l
2
)
2
=
M
l
1
+
1
2
M
4
l
2
(由式(14))
=
∑
x
+
∈
D
+
∑
x
−
∈
D
−
[
I
(
h
(
x
−
)
>
h
(
x
−
+
)
)
+
1
2
I
(
h
(
x
+
)
=
h
(
x
−
)
)
]
(由式(11)、式(13))
\begin{align} \mathrm{Count}(h) & =\frac{\mathrm{Count}(l_1)+\mathrm{Count}(l_2)}{2}\notag \\ & =M^{l_1}+\frac{1}{2}M_4^{l_2}\qquad\text{(由式(14))}\notag \\ & =\sum_{\substack{\boldsymbol{x}^+ \in D^+}}\sum_{\substack{\boldsymbol{x}^- \in D^-}}[\mathbb{I} (h(\boldsymbol{x}^-)> h(\boldsymbol{x}^-+))+\frac{1}{2}\mathbb{I} (h(\boldsymbol{x}^+)= h(\boldsymbol{x}^-))] \tag{15} \\ & \qquad\text{(由式(11)、式(13))}\notag \end{align}
Count(h)=2Count(l1)+Count(l2)=Ml1+21M4l2(由式(14))=x+∈D+∑x−∈D−∑[I(h(x−)>h(x−+))+21I(h(x+)=h(x−))](由式(11)、式(13))(15)
式(15)代入下式即为【西瓜书式(2.21)、(2.22)】。
S
u
h
=
1
m
+
⋅
1
m
−
C
o
u
n
t
(
h
)
A
U
C
=
S
d
h
=
1
−
S
u
h
\begin{align*} S_{\mathrm{u}}^h=\frac{1}{m^+}\cdot \frac{1}{m^-}\mathrm{Count}(h) \\ \mathrm{AUC}=S_{\mathrm{d}}^h=1-S_{\mathrm{u}}^h \end{align*}
Suh=m+1⋅m−1Count(h)AUC=Sdh=1−Suh
但上面仅针对只有一个分数具有多个样本的情况。
如图3所示, 由式(14)及式(13)知,
l
1
l_1
l1与
l
2
l_2
l2围成的区域中的“小矩形”个数为
C
o
u
n
t
(
l
2
−
l
1
)
=
M
4
l
2
=
∑
x
+
∈
D
+
∑
x
−
∈
D
−
I
(
h
(
x
+
)
=
h
(
x
−
)
)
\begin{align} \mathrm{Count}(l_2-l_1) & =M_4^{l_2}\notag \\ & =\sum_{\boldsymbol{x}^+ \in D^+}\sum_{\boldsymbol{x}^- \in D^-}\mathbb{I} (h(\boldsymbol{x}^+)=h(\boldsymbol{x}^-)) \tag{16} \end{align}
Count(l2−l1)=M4l2=x+∈D+∑x−∈D−∑I(h(x+)=h(x−))(16)
现在设有
k
k
k个“块”,每个“块”中分数是并列相同的,设第
i
i
i个“块”为
D
i
D_i
Di分数为
d
i
d_i
di。
仿前述 式(13)有
D
i
=
∑
x
+
∈
D
+
∑
x
−
∈
D
−
I
(
h
(
x
+
)
=
h
(
x
−
)
=
d
i
)
∑
i
=
1
k
D
i
=
∑
x
+
∈
D
+
∑
x
−
∈
D
−
∑
i
=
1
k
I
(
h
(
x
+
)
=
h
(
x
−
)
=
d
i
)
=
∑
x
+
∈
D
+
∑
x
−
∈
D
−
I
(
h
(
x
+
)
=
h
(
x
−
)
)
\begin{align} D_i & =\sum_{\substack{\boldsymbol{x}^+ \in D^+}}\sum_{\substack{\boldsymbol{x}^- \in D^-}}\mathbb{I} (h(\boldsymbol{x}^+)= h(\boldsymbol{x}^-)=d_i) \notag \\ \sum_{i=1}^kD_i & =\sum_{\substack{\boldsymbol{x}^+ \in D^+}}\sum_{\substack{\boldsymbol{x}^- \in D^-}}\sum_{i=1}^k\mathbb{I} (h(\boldsymbol{x}^+)= h(\boldsymbol{x}^-)=d_i)\notag \\ & =\sum_{\substack{\boldsymbol{x}^+ \in D^+}}\sum_{\substack{\boldsymbol{x}^- \in D^-}}\mathbb{I} (h(\boldsymbol{x}^+)= h(\boldsymbol{x}^-)) \tag{17} \end{align}
Dii=1∑kDi=x+∈D+∑x−∈D−∑I(h(x+)=h(x−)=di)=x+∈D+∑x−∈D−∑i=1∑kI(h(x+)=h(x−)=di)=x+∈D+∑x−∈D−∑I(h(x+)=h(x−))(17)
仿前述 式(14)有
M
l
2
=
M
l
1
+
D
1
+
D
2
+
⋯
+
D
k
\begin{align} M^{l_2} & =M^{l_1}+D_1+D_2+\cdots+D_k \tag{18} \end{align}
Ml2=Ml1+D1+D2+⋯+Dk(18)
C
o
u
n
t
(
h
)
=
M
l
1
+
M
l
2
2
=
M
l
1
+
1
2
∑
i
=
1
k
D
i
=
∑
x
+
∈
D
+
∑
x
−
∈
D
−
[
I
(
h
(
x
−
)
>
h
(
x
−
+
)
)
+
1
2
I
(
h
(
x
+
)
=
h
(
x
−
)
)
]
(由式(11)、式(17))
\begin{align} \mathrm{Count}(h) & =\frac{M^{l_1}+M^{l_2}}{2}\notag \\ & =M^{l_1}+\frac{1}{2}\sum_{i=1}^kD_i \notag \\ & =\sum_{\substack{\boldsymbol{x}^+ \in D^+}}\sum_{\substack{\boldsymbol{x}^- \in D^-}}[\mathbb{I} (h(\boldsymbol{x}^-)> h(\boldsymbol{x}^-+))+\frac{1}{2}\mathbb{I} (h(\boldsymbol{x}^+)= h(\boldsymbol{x}^-))] \tag{19} \\ & \qquad\text{(由式(11)、式(17))}\notag \end{align}
Count(h)=2Ml1+Ml2=Ml1+21i=1∑kDi=x+∈D+∑x−∈D−∑[I(h(x−)>h(x−+))+21I(h(x+)=h(x−))](由式(11)、式(17))(19)
即多个“块”时的式(19)与一个“块”的式(15)相同。
综上,【西瓜书式(2.21)】【西瓜书式(2.22)】得证。
本文为原创,您可以:
- 点赞(支持博主)
- 收藏(待以后看)
- 转发(他考研或学习,正需要)
- 评论(或讨论)
- 引用(支持原创)
- 不侵权
上一篇:2.3 恭喜:高考你被录取了!
下一篇:2.5 代价的曲线美