1.试证明Jensen不等式:对任意凸函数 f ( x ) f(x) f(x),有 f ( E ( x ) ) ≤ E ( f ( x ) ) f(E(x))≤E(f(x)) f(E(x))≤E(f(x))。
显然,对任意凸函数f(x),必然有
f
(
α
x
1
+
(
1
−
α
)
x
2
)
≤
α
f
(
x
1
)
+
(
1
−
α
)
f
(
x
2
)
f
(
E
(
x
)
)
=
f
(
1
m
∑
i
m
x
i
)
=
f
(
m
−
1
m
1
m
−
1
∑
i
m
−
1
x
i
+
1
m
x
i
)
f(αx_1+(1-α)x_2) \leq αf(x_1)+(1-α)f(x_2) f(E(x))=f(\frac{1}{m}\sum_i^mx_i)=f(\frac{m-1}{m}\frac{1}{m-1}\sum_i^{m-1}x_i+\frac{1}{m}x_i)
f(αx1+(1−α)x2)≤αf(x1)+(1−α)f(x2)f(E(x))=f(m1∑imxi)=f(mm−1m−11∑im−1xi+m1xi)
取
α
=
m
−
1
m
α=\frac{m-1}{m}
α=mm−1
所以: f ( E ( x ) ) ≤ m − 1 m f ( 1 m − 1 ∑ i m − 1 x i ) + 1 m f ( x m ) f(E(x)) \leq \frac{m-1}{m}f(\frac{1}{m-1}\sum_i^{m-1}x_i)+\frac{1}{m}f(x_m) f(E(x))≤mm−1f(m−11∑im−1xi)+m1f(xm)
以此类推得: f ( E ( x ) ) ≤ 1 m f ( x 1 ) + 1 m f ( x 2 ) + . . . . . . . + 1 m f ( x m ) = E ( f ( x ) ) f(E(x)) \leq \frac{1}{m}f(x_1)+\frac{1}{m}f(x_2)+.......+\frac{1}{m}f(x_m)=E(f(x)) f(E(x))≤m1f(x1)+m1f(x2)+.......+m1f(xm)=E(f(x))
2.试证明引理12.1。
引理(12.1)若训练集D包含m个从分布Ɗ上独立同分布采样而得的样例,0<ε<1,则对任意 h ∈ H h \in H h∈H,有 P ( ∣ E ^ ( h ) − E ( h ) ∣ ≥ ε ) ≤ 2 e − 2 m ε 2 P(|\hat{E}(h)-E(h) |\geq ε) \leq 2e^{-2mε^2} P(∣E^(h)−E(h)∣≥ε)≤2e−2mε2。
已知Hoeffding不等式:若 x 1 , x 2 . . . . x m x_1,x_2....x_m x1,x2....xm为m个独立的随机变量,且满足 0 ≤ x i ≤ 1 0 \leq x_i \leq 1 0≤xi≤1,则对任意ε>0,有
P ( ∣ 1 m ∑ i m x i − 1 m ∑ i m E ( x i ) ∣ ≥ ε ) ≤ 2 e − 2 m ε 2 . P(|\frac{1}{m}\sum_i^mx_i-\frac{1}{m}\sum_i^mE(x_i)|\geq ε) \leq 2e^{-2mε^2}. P(∣m1i∑mxi−m1i∑mE(xi)∣≥ε)≤2e−2mε2.
将 x i x_i xi替换为损失函数 l ( h ( x i ) ≠ y i ) l(h(x_i) \neq y_i) l(h(xi)=yi),显然 0 ≤ l ( h ( x i ) ≠ y i ) ≤ 1 0 \leq l(h(x_i) \neq y_i) \leq 1 0≤l(h(xi)=yi)≤1,且独立。
带入Hoeffding不等式得:
P
(
∣
1
m
∑
i
m
l
(
h
(
x
i
)
≠
y
i
)
−
1
m
∑
i
m
E
(
l
(
h
(
x
i
)
≠
y
i
)
)
∣
≥
ε
)
≤
2
e
−
2
m
ε
2
P(|\frac{1}{m}\sum_i^ml(h(x_i) \neq y_i)-\frac{1}{m}\sum_i^mE(l(h(x_i) \neq y_i))|\geq ε) \leq 2e^{-2mε^2}
P(∣m1∑iml(h(xi)=yi)−m1∑imE(l(h(xi)=yi))∣≥ε)≤2e−2mε2
其中
E
^
(
h
)
=
1
m
∑
i
m
l
(
h
(
x
i
)
≠
y
i
)
\hat{E}(h)=\frac{1}{m}\sum_i^ml(h(x_i) \neq y_i)
E^(h)=m1∑iml(h(xi)=yi)
E
(
h
)
=
P
x
∈
Ɗ
l
(
h
(
x
)
≠
y
)
=
E
(
l
(
h
(
x
)
≠
y
)
)
=
1
m
∑
i
m
E
(
l
(
h
(
x
i
)
≠
y
i
)
)
E(h) =P_{x \in Ɗ}l(h(x) \neq y) =E(l(h(x) \neq y)) = \frac{1}{m}\sum_i^mE(l(h(x_i) \neq y_i))
E(h)=Px∈Ɗl(h(x)=y)=E(l(h(x)=y))=m1∑imE(l(h(xi)=yi))
所以有: P ( ∣ E ^ ( h ) − E ( h ) ∣ ≥ ε ) ≤ 2 e − 2 m ε 2 。 P(|\hat{E}(h)-E(h) |\geq ε) \leq 2e^{-2mε^2}。 P(∣E^(h)−E(h)∣≥ε)≤2e−2mε2。
3.试证明推论12.1。
推论(12.1):若训练集D包含m个从分布Ɗ上独立同分布采样而得的样例,0<ε<1,则对任意
h
∈
H
h \in H
h∈H,式(12.18)以至少1-δ的概率成立。
式(12.18):
E
^
(
h
)
−
l
n
(
2
/
δ
)
2
m
≤
E
(
h
)
≤
E
^
(
h
)
+
l
n
(
2
/
δ
)
2
m
\hat{E}(h)-\sqrt{\frac{ln(2/δ)}{2m}} \leq E(h) \leq \hat{E}(h)+\sqrt{\frac{ln(2/δ)}{2m}}
E^(h)−2mln(2/δ)≤E(h)≤E^(h)+2mln(2/δ)
有引理(12.1)可知, P ( ∣ E ^ ( h ) − E ( h ) ∣ ≥ ε ) ≤ 2 e − 2 m ε 2 P(|\hat{E}(h)-E(h) |\geq ε) \leq 2e^{-2mε^2} P(∣E^(h)−E(h)∣≥ε)≤2e−2mε2成立
即 P ( ∣ E ^ ( h ) − E ( h ) ∣ ≤ ε ) ≤ 1 − 2 e − 2 m ε 2 P(|\hat{E}(h)-E(h) |\leq ε) \leq 1-2e^{-2mε^2} P(∣E^(h)−E(h)∣≤ε)≤1−2e−2mε2
取 δ = 2 e − 2 m ε 2 δ=2e^{-2mε^2} δ=2e−2mε2,则 ε = l n ( 2 / δ ) 2 m ε=\sqrt{\frac{ln(2/δ)}{2m}} ε=2mln(2/δ)
所以
∣
E
^
(
h
)
−
E
(
h
)
∣
≤
l
n
(
2
/
δ
)
2
m
|\hat{E}(h)-E(h) |\leq \sqrt{\frac{ln(2/δ)}{2m}}
∣E^(h)−E(h)∣≤2mln(2/δ)的概率不小于1-δ
整理得:
E
^
(
h
)
−
l
n
(
2
/
δ
)
2
m
≤
E
(
h
)
≤
E
^
(
h
)
+
l
n
(
2
/
δ
)
2
m
\hat{E}(h)-\sqrt{\frac{ln(2/δ)}{2m}} \leq E(h) \leq \hat{E}(h)+\sqrt{\frac{ln(2/δ)}{2m}}
E^(h)−2mln(2/δ)≤E(h)≤E^(h)+2mln(2/δ)以至少1-δ的概率成立。
4.试证明: R d R^d Rd空间中线性超平面构成的假设空间的VC维是d+1。
线性空间超平面公式为
w
T
x
+
b
=
0
w^Tx+b=0
wTx+b=0,超平面将空间分为二块,即二分类。
取R^d空间中不共超平面的d+1个点,为了简化,假设是各坐标轴基向量和原点。
设A是
(
d
+
1
)
∗
(
d
+
1
)
(d+1)*(d+1)
(d+1)∗(d+1)矩阵,第一列是b的系数1,第二列起是各个点的坐标。
X
=
∣
1
0
0
.
.
.
0
1
1
0
.
.
.
0
1
0
1
.
.
.
0
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
1
0
0
.
.
.
1
∣
,
w
=
∣
b
w
1
w
2
.
.
.
w
d
∣
X=\begin{vmatrix}1 & 0 & 0 & ... & 0\\ 1& 1 & 0 & ... & 0\\ 1& 0 & 1 & ... & 0\\...& ... & ... & ... & ...\\ 1& 0 & 0 & ... & 1\end{vmatrix},w=\begin{vmatrix}b\\ w_1\\ w_2\\...\\ w_d\end{vmatrix}
X=∣∣∣∣∣∣∣∣∣∣111...1010...0001...0...............000...1∣∣∣∣∣∣∣∣∣∣,w=∣∣∣∣∣∣∣∣∣∣bw1w2...wd∣∣∣∣∣∣∣∣∣∣
要证明的是,对于任意的y,存在w使得
X
w
=
y
Xw=y
Xw=y成立。
由于X是可逆矩阵,可以得
w
=
X
−
1
y
w=X^{-1}y
w=X−1y使得
X
w
=
y
Xw=y
Xw=y成立。所以VC维至少是d+1。
由于
R
d
R^d
Rd空间中的d+2个点必然线性相关,将第d+2个点写成前n+1个点的线性组合:
x
d
+
2
=
∑
i
d
+
1
p
i
x
i
,
x_{d+2}=\sum_i^{d+1}p_ix_i,
xd+2=∑id+1pixi,
则:
y
d
+
2
=
∑
i
d
+
1
p
i
y
i
y_{d+2}=\sum_i^{d+1}p_iy_i
yd+2=∑id+1piyi
对任意的
y
i
(
i
≤
d
+
1
)
,
取
p
i
=
s
i
g
n
(
y
i
)
,
y_i(i \leq d+1),取p_i=sign(y_i),
yi(i≤d+1),取pi=sign(yi),得到
y
d
+
2
>
0
y_{d+2}>0
yd+2>0恒成立,所以此时
x
d
+
2
x_{d+2}
xd+2无法被打散。
即VC维小于d+2。
所以
R
d
R^d
Rd空间中线性超平面构成的假设空间的VC维是d+1。
5.试计算决策树桩假设空间的VC维。
如果是非连续属性,通过决策树一次划分无法确定节点个数,可能导致VC维无限大。
仅考虑连续属性单变量的决策树桩。
由于决策树的划分是与坐标轴平行的超平面,显然平面上的2个点是可以被打散的,即VC维大于等于2。
对于平面的3各点,如果其中两个点的连线与一条坐标轴平行,另两个点的连线与另一坐标轴平行。比如(0,0),(0,1),(1,0)三个点,无法通过一个与坐标轴平行的超平面来划分。所以VC维小于3。
所以决策树桩假设空间的VC维是2。
6.决策树分类器的假设空间VC维可以为无穷大。
由于决策树如果不限制伸展,会包含整个假设空间。对任意多的样本,决策树可以使得训练误差为0,所以VC维是无穷大。
7.试证明:最近邻分类器的假设空间VC维为无穷大。
最近邻分类器,也就是1NN,总是会把自己分类成自己的样本分类,所以对任何数目的样本训练误差恒为0。如图所示
8.试证明常数函数c的Rademacher的复杂度为0。
常数函数c的Rademacher的复杂度为
R
^
Z
(
C
)
=
E
σ
[
1
m
σ
i
C
(
z
i
)
]
\hat{R}_Z(C)=E_σ[\frac{1}{m}σ_iC(z_i)]
R^Z(C)=Eσ[m1σiC(zi)]
其中
σ
i
σ_i
σi是随机变量,以0.5的概率取1,0.5的概率取-1。
所以
E
(
σ
i
)
=
0
E(σ_i)=0
E(σi)=0
R
^
Z
(
C
)
=
E
σ
[
1
m
∑
i
m
σ
i
C
(
z
i
)
]
=
c
m
∑
i
m
E
[
σ
i
]
=
0
\hat{R}_Z(C)=E_σ[\frac{1}{m}\sum_i^mσ_iC(z_i)]=\frac{c}{m}\sum_i^mE[σ_i]=0
R^Z(C)=Eσ[m1∑imσiC(zi)]=mc∑imE[σi]=0
9.给定函数空间 F 1 , F 2 , F_1,F_2, F1,F2,试证明Rademacher复杂度 R m ( F 1 + F 2 ) ≤ R m ( F 1 ) + R m ( F 2 ) 。 R_m(F_1+F_2) \leq R_m(F_1)+R_m(F_2)。 Rm(F1+F2)≤Rm(F1)+Rm(F2)。
R m ( F 1 + F 2 ) = E Z ∈ Ƶ : ∣ Z ∣ = m [ R ^ Z ( F 1 + F 2 ) ] R_m(F_1+F_2)=E_{Z \in Ƶ:|Z|=m}[\hat{R}_Z(F_1+F_2)] Rm(F1+F2)=EZ∈Ƶ:∣Z∣=m[R^Z(F1+F2)]
R ^ Z ( F 1 + F 2 ) = E σ [ s u p f 1 ∈ F 1 , f 2 ∈ F 2 1 m ∑ i m σ i ( f 1 ( z i ) + f 2 ( z i ) ) ] \hat{R}_Z(F_1+F_2)=E_σ[sup_{f_1 \in F_1,f_2 \in F_2}\frac{1}{m}\sum_i^mσ_i(f_1(z_i)+f_2(z_i))] R^Z(F1+F2)=Eσ[supf1∈F1,f2∈F2m1∑imσi(f1(zi)+f2(zi))]
当 f 1 ( z i ) f 2 ( z i ) < 0 f_1(z_i)f_2(z_i) < 0 f1(zi)f2(zi)<0时, σ i ( f 1 ( z i ) + f 2 ( z i ) ) < σ i 1 f 1 ( z i ) + σ i 2 f 2 ( z i ) σ_i(f_1(z_i)+f_2(z_i)) < σ_{i1}f_1(z_i)+σ_{i2}f_2(z_i) σi(f1(zi)+f2(zi))<σi1f1(zi)+σi2f2(zi)
当 f 1 ( z i ) f 2 ( z i ) ≥ 0 f_1(z_i)f_2(z_i) \geq 0 f1(zi)f2(zi)≥0时, σ i ( f 1 ( z i ) + f 2 ( z i ) ) = σ i 1 f 1 ( z i ) + σ i 2 f 2 ( z i ) σ_i(f_1(z_i)+f_2(z_i)) = σ_{i1}f_1(z_i)+σ_{i2}f_2(z_i) σi(f1(zi)+f2(zi))=σi1f1(zi)+σi2f2(zi)
所以 R ^ Z ( F 1 + F 2 ) ≤ R ^ Z ( F 1 ) + R ^ Z ( F 2 ) \hat{R}_Z(F_1+F_2) \leq \hat{R}_Z(F_1) +\hat{R}_Z(F_2) R^Z(F1+F2)≤R^Z(F1)+R^Z(F2)
即: R m ( F 1 + F 2 ) ≤ R m ( F 1 ) + R m ( F 2 ) 。 R_m(F_1+F_2) \leq R_m(F_1)+R_m(F_2)。 Rm(F1+F2)≤Rm(F1)+Rm(F2)。
10.考虑定理12.8,试讨论通过交叉验证法来估计学习算法泛化能力的合理性。
K折交叉验证,当K=m时,就成了留一法。
由式(12.59):
l
(
Ƹ
,
D
)
≤
l
l
o
o
(
Ƹ
,
D
)
+
β
+
(
4
m
β
+
M
)
s
q
r
t
l
n
(
1
/
δ
)
2
m
取
ε
=
β
+
(
4
m
β
+
M
)
s
q
r
t
l
n
(
1
/
δ
)
2
m
l(Ƹ,D) \leq l_{loo}(Ƹ,D)+β+(4mβ+M)sqrt{\frac{ln(1/δ)}{2m}} 取ε=β+(4mβ+M)sqrt{\frac{ln(1/δ)}{2m}}
l(Ƹ,D)≤lloo(Ƹ,D)+β+(4mβ+M)sqrt2mln(1/δ)取ε=β+(4mβ+M)sqrt2mln(1/δ)时,可以得到:
l
(
Ƹ
,
D
)
−
l
l
o
o
(
Ƹ
,
D
)
≤
ε
l(Ƹ,D) - l_{loo}(Ƹ,D) \leq ε
l(Ƹ,D)−lloo(Ƹ,D)≤ε以至少1-δ/2的概率成立,所以留一法有不错的泛化能力。
前提条件是Ƹ对于损失函数l满足β均匀稳定性,且β应该是O(1/m)这个量级。
仅拿出一个样本,可以保证很小的β。
随着K的减小,训练用的样本会减少,β逐渐增大,当β超出O(1/m)量级时,交叉验证就变得不合理了。