4 控制学习过程的推广能力
一般认为一个数据集为小样本,当训练数与VC维的比值较小如 1 < l / h < 20 1 < l/h < 20 1<l/h<20 时。 l > h l>h l>h 的原因见3.7节。
4.1 结构风险最小化归纳原则
3.4节(或3.7节)中的情况一般可以归纳为
R
(
α
)
≤
f
(
R
e
m
p
(
α
)
,
Φ
(
h
)
)
R(\alpha) \le f(R_{emp}(\alpha), \Phi(h))
R(α)≤f(Remp(α),Φ(h))
R
e
m
p
(
α
)
R_{emp}(\alpha)
Remp(α) 被称为经验风险,
Φ
(
h
)
\Phi(h)
Φ(h)被称为置信范围。
设函数
Q
(
z
,
α
)
,
α
∈
Λ
Q(z, \alpha), \alpha \in \Lambda
Q(z,α),α∈Λ 的集合
S
S
S 具有一定的结构
S
1
⊂
S
2
⊂
.
.
.
⊂
S
n
.
.
.
,
S
k
=
{
Q
(
z
,
α
)
,
α
∈
Λ
k
⊂
Λ
}
S_1 \subset S_2 \subset ... \subset S_n ..., \ \ S_k=\{Q(z, \alpha), \alpha \in \Lambda_k \subset \Lambda\}
S1⊂S2⊂...⊂Sn..., Sk={Q(z,α),α∈Λk⊂Λ}
结构中的元素满足性质
-
S k S_k Sk 的VC维 h k < ∞ h_k < \infty hk<∞ 满足 h 1 ≤ h 2 ≤ . . . ≤ h n h_1 \le h_2 \le ... \le h_n h1≤h2≤...≤hn, 然而 S S S 的VC维可以无限。
-
结构为一种容许结构,即对于任何元素 S k S_k Sk, 或者包含一个完全有界的函数集合
0 ≤ Q ( z , α ) ≤ B k , α ∈ Λ k 0 \le Q(z, \alpha) \le B_k, \alpha \in \Lambda_k 0≤Q(z,α)≤Bk,α∈Λk
或者包含对某对 ( p , τ ) (p, \tau) (p,τ) 满足
sup α ∈ Λ ( ∫ Q p ( z , α ) d F ( z ) ) 1 / p ∫ Q ( z , α ) d F ( z ) ≤ τ < ∞ , p > 2 \sup\limits_{\alpha \in \Lambda} \dfrac{(\int Q^p(z, \alpha)dF(z))^{1/p}}{\int Q(z, \alpha)dF(z)} \le \tau < \infty, p>2 α∈Λsup∫Q(z,α)dF(z)(∫Qp(z,α)dF(z))1/p≤τ<∞,p>2# 这里感觉熵应该和3.4节情况2和情况3相对应,那么后一种容许结构可能缺少条件 0 ≤ Q ( z , α ) , α ∈ Λ k 0 \le Q(z, \alpha), \alpha \in \Lambda_k 0≤Q(z,α),α∈Λk, 同时,为与情况2,3相对应,应当使容许结构要么为情况2要么为情况3才是,而不是“包含”。
对于一个给定观测集 z 1 , . . . , z l z_1,...,z_l z1,...,zl, 结构风险最小化(SRM)归纳原则希望能在VC维较小(置信范围较小)的 S k S_k Sk 中找到经验风险较小的函数 Q ( z , α 0 k ) Q(z, \alpha_0^k) Q(z,α0k), 这样对于3.4节中的各情况都能保证找到尽量小的 R ( α ) R(\alpha) R(α)。
4.2 收敛速度的渐进分析
4.3 学习理论中的函数逼近问题
4.4 神经网络的子集结构举例
由神经网络构造所形成的结构
随着二层神经网络隐藏层的节点数目增加,VC维不断增加,形成一种结构。
由学习过程给出的结构
设固定构造的神经网络函数集合
S
=
{
f
(
x
,
ω
)
,
ω
∈
W
}
S=\{f(x,\omega), \omega \in W\}
S={f(x,ω),ω∈W}, 定义结构
S
k
=
{
f
(
x
,
ω
)
,
∣
∣
ω
∣
∣
≤
C
p
}
,
C
1
≤
C
2
≤
.
.
.
≤
C
n
S_k=\{f(x, \omega), ||\omega|| \le C_p\}, C_1 \le C_2 \le...\le C_n
Sk={f(x,ω),∣∣ω∣∣≤Cp},C1≤C2≤...≤Cn
经验风险最小化可以最小化泛函
E
(
ω
,
γ
p
)
=
1
l
∑
i
=
1
l
L
(
y
i
,
f
(
x
i
,
ω
)
)
+
γ
p
∣
∣
ω
∣
∣
2
E(\omega, \gamma_p) = \dfrac{1}{l} \sum\limits_{i=1}^l L(y_i, f(x_i, \omega)) + \gamma_p ||\omega||^2
E(ω,γp)=l1i=1∑lL(yi,f(xi,ω))+γp∣∣ω∣∣2
由预处理给出的一种结构
假设数据经过一个变换
z
=
K
(
x
,
β
)
z=K(x, \beta)
z=K(x,β), 那么
β
\beta
β 的不同取值可以定义
S
=
{
f
(
z
,
ω
)
,
ω
∈
W
}
S=\{f(z,\omega), \omega \in W\}
S={f(z,ω),ω∈W} 的一个结构。
4.5 局部函数估计的问题
考虑基于经验数据在某一定点
x
0
x_0
x0的领域内的最小化局部风险的模型,加入局部性参数
0
≤
K
(
x
,
x
0
;
β
)
≤
1
,
K
(
x
0
,
x
0
,
β
)
=
1
0 \le K(x,x_0;\beta) \le 1,\ \ K(x_0,x_0,\beta) = 1
0≤K(x,x0;β)≤1, K(x0,x0,β)=1
β
\beta
β 用于控制领域范围,例如
K
(
x
,
x
0
;
β
)
=
exp
{
−
β
−
2
(
x
−
x
0
)
2
}
K(x,x_0;\beta) = \exp\{ - \beta^{-2}(x-x_0)^2\}
K(x,x0;β)=exp{−β−2(x−x0)2}
定义归一化的局部参数
ϰ
(
x
,
x
0
,
β
)
=
K
(
x
,
x
0
;
β
)
∫
K
(
x
,
x
0
;
β
)
d
F
(
x
)
\varkappa(x, x_0, \beta) = \dfrac{K(x,x_0;\beta)}{\int K(x,x_0;\beta) dF(x)}
ϰ(x,x0,β)=∫K(x,x0;β)dF(x)K(x,x0;β)
目标转换为最小化局部风险泛函(领域加权的)
R
(
α
,
β
,
;
x
0
)
=
∫
L
(
y
,
f
(
x
,
α
)
)
ϰ
(
x
,
x
0
,
β
)
d
F
(
x
,
y
)
R(\alpha, \beta,; x_0) = \int L(y, f(x, \alpha)) \varkappa(x, x_0, \beta) dF(x, y)
R(α,β,;x0)=∫L(y,f(x,α))ϰ(x,x0,β)dF(x,y)
可以得到如下定理(Vapnik and Bottou 1993)
对于所有
A
≤
L
(
y
,
f
(
x
,
α
)
)
≤
B
,
α
∈
Λ
,
A
,
B
∈
R
0
≤
K
(
x
,
x
0
;
β
)
≤
1
,
β
∈
(
0
,
∞
)
A \le L(y, f(x,\alpha)) \le B, \ \ \alpha \in \Lambda, \ \ A,B \in \R \\ 0 \le K(x, x_0;\beta) \le 1, \beta \in (0, \infty)
A≤L(y,f(x,α))≤B, α∈Λ, A,B∈R0≤K(x,x0;β)≤1,β∈(0,∞)
以下不等式以概率
1
−
η
1-\eta
1−η 成立
R
(
α
,
β
;
x
0
)
≤
1
l
∑
i
=
1
l
L
(
y
i
,
f
(
x
i
,
α
)
)
K
(
x
,
x
0
;
β
)
+
(
B
−
A
)
ζ
(
l
,
h
Σ
)
(
1
l
∑
i
=
1
l
K
(
x
,
x
0
;
β
)
−
ζ
(
l
,
h
β
)
)
+
ζ
(
l
,
h
)
=
h
(
ln
2
l
h
+
1
)
−
l
n
η
2
l
R(\alpha, \beta; x_0) \le \dfrac{ \dfrac{1}{l}\sum\limits_{i=1}^l L(y_i, f(x_i, \alpha))K(x, x_0; \beta) + (B-A)\zeta(l, h_\Sigma) }{ (\dfrac{1}{l}\sum\limits_{i=1}^l K(x, x_0; \beta) - \zeta(l, h_\beta))_+ } \\ \zeta(l,h) = \sqrt{\dfrac{h(\ln \dfrac{2l}{h} + 1) - ln \dfrac{\eta}{2}}{l}}
R(α,β;x0)≤(l1i=1∑lK(x,x0;β)−ζ(l,hβ))+l1i=1∑lL(yi,f(xi,α))K(x,x0;β)+(B−A)ζ(l,hΣ)ζ(l,h)=lh(lnh2l+1)−ln2η
其中
h
β
h_\beta
hβ 为函数集
K
(
x
,
x
0
,
β
)
,
β
∈
(
0
,
∞
)
K(x, x_0, \beta), \beta \in (0, \infty)
K(x,x0,β),β∈(0,∞)
的VC维,
h
Σ
h_\Sigma
hΣ 为函数集
L
(
y
,
f
(
x
,
α
)
)
K
(
x
,
x
0
,
β
)
,
α
∈
Λ
,
β
∈
(
0
,
∞
)
L(y, f(x, \alpha)) K(x, x_0, \beta),\ \ \alpha \in \Lambda, \ \beta \in (0, \infty)
L(y,f(x,α))K(x,x0,β), α∈Λ, β∈(0,∞)
的VC维。
4.6 最小描述长度原则(MDL原则)与SRM原则
4.7 解决不适定问题的方法
在计算数学和统计学的各领域中,改进方法性能的很多努力都基本上引向了同一个思想:结构风险最小化归纳原则(SRM原则)
如解决不适定问题的方法:
- 拟解(近似解)的方法 (Ivanov, 1962)
- 正则化方法(Tichonov, 1963)
非参数密度估计方法:
- Parzen窗(Parzen, 1962)
- 投影方法(CHentsov, 1963)
- 条件最大似然方法(Grenander, 1981)
- 最大惩罚似然方法(Tapia and Thompson, 1978)
回归估计方法:
- 岭回归(Hoerl and Kennard, 1970)
- 模型选择(Miller, 1990)