习题提示
8.1:
通过如下表1对比即易证。
8.2:
ℓ
[
H
∣
D
]
=
E
x
ℓ
(
−
f
(
x
)
H
(
x
)
)
=
ℓ
(
H
(
x
)
)
P
(
f
(
x
)
=
−
1
)
+
ℓ
(
−
H
(
x
)
)
P
(
f
(
x
)
=
1
)
\begin{align} {\ell}[H|D]&=\mathop{\mathbb{E} }\limits_{\boldsymbol{x}}{\ell} (-f(\boldsymbol{x})H(\boldsymbol{x}))\notag\\ &={\ell} (H(\boldsymbol{x}))P(f(\boldsymbol{x})=-1)+{\ell} (-H(\boldsymbol{x}))P(f(\boldsymbol{x})=1) \tag{1} \end{align}
ℓ[H∣D]=xEℓ(−f(x)H(x))=ℓ(H(x))P(f(x)=−1)+ℓ(−H(x))P(f(x)=1)(1)
令
∂
ℓ
[
H
∣
D
]
∂
H
=
0
\frac{\partial{ {\ell}[H|D]} }{\partial H}=0
∂H∂ℓ[H∣D]=0,即:
∂
ℓ
(
H
(
x
)
)
∂
H
(
x
)
P
(
f
(
x
)
=
−
1
)
=
∂
ℓ
(
−
H
(
x
)
)
∂
(
−
H
(
x
)
)
P
(
f
(
x
)
=
1
)
∂
ℓ
(
u
)
∂
u
P
(
f
(
x
)
=
−
1
)
=
∂
ℓ
(
v
)
∂
(
v
)
P
(
f
(
x
)
=
1
)
u
=
H
(
x
)
,
v
=
−
u
\begin{align} \frac{\partial{{\ell} (H(\boldsymbol{x}))} }{\partial H(\boldsymbol{x})}P(f(\boldsymbol{x})=-1)&= \frac{\partial{{\ell} (-H(\boldsymbol{x}))} }{\partial (-H(\boldsymbol{x}))}P(f(\boldsymbol{x})=1) \tag{2}\\ \frac{\partial{{\ell} (u)} }{\partial u}P(f(\boldsymbol{x})=-1)&= \frac{\partial{{\ell} (v)} }{\partial (v)}P(f(\boldsymbol{x})=1) \tag{3}\\ u=H(\boldsymbol{x}),&\ v=-u\notag\\ \end{align}
∂H(x)∂ℓ(H(x))P(f(x)=−1)∂u∂ℓ(u)P(f(x)=−1)u=H(x),=∂(−H(x))∂ℓ(−H(x))P(f(x)=1)=∂(v)∂ℓ(v)P(f(x)=1) v=−u(2)(3)
对式(3)求u在区间
[
−
H
(
x
,
0
]
[-H(\boldsymbol{x},0]
[−H(x,0]的定积分:
∫
−
H
(
x
)
0
∂
ℓ
(
u
)
∂
u
P
(
f
(
x
)
=
−
1
)
d
u
=
∫
−
H
(
x
)
0
∂
ℓ
(
v
)
∂
v
P
(
f
(
x
)
=
1
)
d
u
∫
−
H
(
x
)
0
∂
ℓ
(
u
)
∂
u
P
(
f
(
x
)
=
−
1
)
d
u
=
−
∫
0
H
(
x
∂
ℓ
(
v
)
∂
v
P
(
f
(
x
)
=
1
)
d
v
ℓ
(
u
)
∣
−
H
(
x
)
0
P
(
f
(
x
)
=
−
1
)
=
−
ℓ
(
u
)
∣
0
H
(
x
P
(
f
(
x
)
=
1
)
(
ℓ
(
0
)
−
ℓ
(
−
H
(
x
)
)
)
P
(
f
(
x
)
=
−
1
)
=
(
ℓ
(
0
)
−
ℓ
(
H
(
x
)
)
)
P
(
f
(
x
)
=
1
)
P
(
f
(
x
)
=
1
)
P
(
f
(
x
)
=
−
1
)
=
ℓ
(
0
)
−
ℓ
(
−
H
(
x
)
)
ℓ
(
0
)
−
ℓ
(
H
(
x
)
)
\begin{align} \int_{-H(\boldsymbol{x})}^{0} \frac{\partial{{\ell} (u)} }{\partial u}P(f(\boldsymbol{x})=-1)\,du&= \int_{-H(\boldsymbol{x})}^{0} \frac{\partial{{\ell} (v)} }{\partial v}P(f(\boldsymbol{x})=1)\,du\notag\\ \int_{-H(\boldsymbol{x})}^{0} \frac{\partial{{\ell} (u)} }{\partial u}P(f(\boldsymbol{x})=-1)\,du&= -\int_{0}^{H(\boldsymbol{x}} \frac{\partial{{\ell} (v)} }{\partial v}P(f(\boldsymbol{x})=1)\,dv\notag\\ {\ell} (u)\vert _{-H(\boldsymbol{x})}^{0}P(f(\boldsymbol{x})=-1)&= -{\ell} (u)\vert _{0}^{H(\boldsymbol{x}}P(f(\boldsymbol{x})=1)\notag\\ ({\ell} (0)-{\ell} (-H(\boldsymbol{x})))P(f(\boldsymbol{x})=-1)&= ({\ell} (0)-{\ell} (H(\boldsymbol{x})))P(f(\boldsymbol{x})=1)\notag\\ \frac{P(f(\boldsymbol{x})=1)}{P(f(\boldsymbol{x})=-1)}&=\frac{{\ell} (0)-{\ell} (-H(\boldsymbol{x}))}{{\ell} (0)-{\ell} (H(\boldsymbol{x}))} \tag{4} \end{align}
∫−H(x)0∂u∂ℓ(u)P(f(x)=−1)du∫−H(x)0∂u∂ℓ(u)P(f(x)=−1)duℓ(u)∣−H(x)0P(f(x)=−1)(ℓ(0)−ℓ(−H(x)))P(f(x)=−1)P(f(x)=−1)P(f(x)=1)=∫−H(x)0∂v∂ℓ(v)P(f(x)=1)du=−∫0H(x∂v∂ℓ(v)P(f(x)=1)dv=−ℓ(u)∣0H(xP(f(x)=1)=(ℓ(0)−ℓ(H(x)))P(f(x)=1)=ℓ(0)−ℓ(H(x))ℓ(0)−ℓ(−H(x))(4)
由题设,
H
(
x
)
H(\boldsymbol{x})
H(x)在区间
(
−
∞
,
δ
]
,
δ
>
0
(-\infty ,\delta ],\, \delta>0
(−∞,δ],δ>0上泛函
ℓ
[
−
f
(
x
)
H
(
x
)
]
{\ell} [-f(\boldsymbol{x})H(\boldsymbol{x})]
ℓ[−f(x)H(x)]的单调递减,得泛函
ℓ
[
−
H
]
{\ell} [-H]
ℓ[−H]在该区间上也单调递减。
由式(4)得如下推导:
P
(
f
(
x
)
=
1
)
⩾
P
(
f
(
x
)
=
−
1
)
⟺
ℓ
(
0
)
−
ℓ
(
−
H
(
x
)
)
⩾
ℓ
(
0
)
−
ℓ
(
H
(
x
)
)
⟺
ℓ
(
−
H
(
x
)
)
⩽
ℓ
(
H
(
x
)
)
⟺
ℓ
(
−
H
(
x
)
)
⩽
ℓ
(
−
(
−
H
(
x
)
)
)
⟺
H
(
x
)
⩾
(
−
H
(
x
)
)
(由
ℓ
[
−
H
]
单调递减)
⟺
H
(
x
)
⩾
0
⟺
s
i
g
n
(
H
(
x
)
)
⩾
0
\begin{align} &P(f(\boldsymbol{x})=1)\geqslant P(f(\boldsymbol{x})=-1) \tag{5}\\ \Longleftrightarrow &{\ell} (0)-{\ell} (-H(\boldsymbol{x}))\geqslant {\ell} (0)-{\ell} (H(\boldsymbol{x}))\notag\\ \Longleftrightarrow &{\ell} (-H(\boldsymbol{x}))\leqslant {\ell} (H(\boldsymbol{x}))\notag\\ \Longleftrightarrow &{\ell} (-H(\boldsymbol{x}))\leqslant {\ell} (-(-H(\boldsymbol{x})))\notag\\ \Longleftrightarrow &H(\boldsymbol{x})\geqslant (-H(\boldsymbol{x}))\quad \text{(由${\ell} [-H]$单调递减)}\notag\\ \Longleftrightarrow &H(\boldsymbol{x})\geqslant 0\notag\\ \Longleftrightarrow &\mathrm{sign}(H(\boldsymbol{x}))\geqslant 0 \tag{6} \end{align}
⟺⟺⟺⟺⟺⟺P(f(x)=1)⩾P(f(x)=−1)ℓ(0)−ℓ(−H(x))⩾ℓ(0)−ℓ(H(x))ℓ(−H(x))⩽ℓ(H(x))ℓ(−H(x))⩽ℓ(−(−H(x)))H(x)⩾(−H(x))(由ℓ[−H]单调递减)H(x)⩾0sign(H(x))⩾0(5)(6)
由式(5)(6)知,
s
i
g
n
(
H
(
x
)
)
\mathrm{sign}(H(\boldsymbol{x}))
sign(H(x))等价于贝叶斯最优分类器(
0
/
1
0/1
0/1损失函数),即一致替代性得证。
8.3:
【西瓜书图8.3】AdaBoost算法中,
h
t
=
L
(
D
,
D
t
)
h_t=\mathfrak{L} (D,\mathcal{D}_t )
ht=L(D,Dt)
针对西瓜数据 3.0 α 3.0\alpha 3.0α,【西瓜书图8.4】中采用的 L \mathfrak{L} L是决策桩,而本题要求的是不剪枝决策树【西瓜书图4.2】。
8.4:
AdaBoost与GradientBoosting的异同:
(1)都是采用加性模型进行递推;
(2)都是进行不断改善估值,即通过 h k h_k hk调整;
(3)AdaBoost是通过调整分布 D t \mathcal{D}_t Dt得到 h t h_t ht,而GradientBoosting是通过残差调整得 h t h_t ht;
(4)AdaBoost的基学习算法可由适合的算法担当,而GradientBoosting的基学习算法通常是决策树。
8.5:
编程的关键是用随机数实现自助采样,而决策树算法在选用的工具包中容易找到。
8.6:
由7.1 贝叶斯决策论(贝叶斯学派与频率学派有很大的分岐)中的式 (7.14)(7.16)知,
h
h
h对
x
\boldsymbol{x}
x预测的正确率为:
P
(
C
)
⩽
max
i
P
(
i
∣
x
)
=
P
(
i
∗
∣
x
)
\begin{align} P(C) &\leqslant \mathop{\max}\limits_i P(i|\boldsymbol{x})\notag\\ &=P(i^*|\boldsymbol{x}) \tag{7} \end{align}
P(C)⩽imaxP(i∣x)=P(i∗∣x)(7)
其中,
i
∗
i^*
i∗为贝叶斯最优分类器的预测,即
h
∗
(
x
)
=
i
∗
h^*(\boldsymbol{x})=i^*
h∗(x)=i∗.
(1)当“属性条件独立性假设”满足时,朴素贝叶斯分类器即为贝叶斯最优分类器,其预测的正确率由7.1 贝叶斯决策论(贝叶斯学派与频率学派有很大的分岐)中的式 (7.16)给出,而Bagging分类器的预测正确率由式(7)给出,故二者预测的正确率比较有 P ( C b a g g i n g ) ⩽ P ( C n b ) P(C_{bagging})\leqslant P(C_{nb}) P(Cbagging)⩽P(Cnb),即有题中的结论。
(2)Bagging是通过数据样本扰动来产生多个不同的基学习器,如果以朴素贝叶斯分类器作为基学习器模板,则由于朴素贝叶斯分类器对数据样本扰动不敏感,所产生的基学习器“同质化”严重,故Bagging难以提升朴素贝叶斯分类器的性能。
8.7:
Bagging中的决策树是全体属性参与,一是存在组合爆炸,二是选取当前最优划分属性要进行全量比较。 而随机森林是采取属性扰动,即对每个基学习器的训练都是选部分属性(相当于降维了),选择划分属性时是在子集中比较(有的算法还不用比较,直接随机选取),故在属性多的情况下,它能大大地提升学习速度。
8.8:
两组合算法中,基学习器又是集成算法,形成多级集成。
(1)Boosting关注降低偏差,Bagging关注降低方差。 IterativeBagging提升性能特点:初级基学习器(不同的算法侧重降低偏差或方差不同) ⟶ \longrightarrow ⟶Bagging基学习器(侧重降低方差) ⟶ \longrightarrow ⟶AdaBoost(侧重降低偏差)。 而MutilBoosting算法则相反:初级基学习器(不同的算法侧重降低偏差或方差不同) ⟶ \longrightarrow ⟶AdaBoost(侧重降低偏差) ⟶ \longrightarrow ⟶Bagging基学习器(侧重降低方差)。 故应从提升性能需求和初级基学习器的特点进行选择。
(2)Boosting中对学习器训练是采用全部样本(不同分布),而Bagging中对学习器的训练是采用部分样本(自采样获得),IterativeBagging中,先Bagging对数据集 D D D取部分样本集 D ′ D' D′训练,再每个AdaBoost在数据集 D ′ D' D′上用全量样本进行训练。 而MutilBoosting中,先AdaBoost在数据集 D D D上使用全部样本训练,再每个Bagging取部分样本 D ′ D' D′进行训练。 显然,IterativeBagging更有利于获得测试集 D ∖ D ′ D\setminus D' D∖D′。
8.9:
这是一个讨论题,可以参考【西瓜书2.4节】的一些方法进行设计。
8.10:
KNN参见【西瓜书第10章第10.1节】,集成时:
(1)选择加性模型,由 k k k变化而产生多个 h h h,抛弃准确率小于50%的 h h h。
(2)利用扰动避免过拟合。
本文为原创,您可以:
- 点赞(支持博主)
- 收藏(待以后看)
- 转发(他考研或学习,正需要)
- 评论(或讨论)
- 引用(支持原创)
- 不侵权