学习理论
1、基本概念
2、PAC理论
3、VC维
4、极大似然,最大后验概率,贝叶斯估计
5、模型评估与评价指标
6、模型诊断调参
三、VC维
在PAC理论中,我们用假设空间的取值 N N N来描述模型的复杂度,然而很多时候假设空间的取值是无限的,比如线性模型中模型属于连续空间,我们无法用取值来衡量模型的复杂度,VC维的主要价值在于用VC维(维度)衡量模型的复杂度,同时给出了误差上界(个人见解)。
VC维:给定一个样本集 S = { x 1 , x 2 , . . . , x m } S=\{x^{1},x^{2},...,x^{m}\} S={x1,x2,...,xm} ,我们称假设空间 H H H可以打散 S S S,当且仅当对于样本集 S S S的任何一种标签(与样本的分布无关)都能被 H H H线性可分。一般来说: 等于假设类的参数个数
比如下图:一个二维的假设空间其最大能打散(线性可分)的样本集数为3,VC维为3。
对于假设空间
H
H
H,其
V
C
(
H
)
=
d
VC(H)=d
VC(H)=d,那么至少以
1
−
σ
1-\sigma
1−σ的概率,对于假设空间下
h
h
h,我们有:
P
(
∣
ϵ
(
h
k
)
−
ϵ
^
(
h
k
)
∣
≤
d
m
l
o
g
m
d
+
1
m
l
o
g
1
σ
)
≥
1
−
σ
P\left(|\epsilon(h_{k})-\hat{\epsilon} (h_{k})|\leq \sqrt{\frac{d}{m}log\frac{m}{d}+\frac{1}{m}log\frac{1}{\sigma}}\right)\geq 1-\sigma
P(∣ϵ(hk)−ϵ^(hk)∣≤mdlogdm+m1logσ1)≥1−σ
也就是说至少
1
−
σ
1-\sigma
1−σ的概率有,泛化误差与训练误差的方差满足下式:
ϵ
(
h
^
)
≤
ϵ
^
(
h
∗
)
∣
+
d
m
l
o
g
m
d
+
1
m
l
o
g
1
σ
\epsilon(\hat{h})\leq \hat{\epsilon} (h^{*})|+ \sqrt{\frac{d}{m}log\frac{m}{d}+\frac{1}{m}log\frac{1}{\sigma}}
ϵ(h^)≤ϵ^(h∗)∣+mdlogdm+m1logσ1
其中
h
^
=
a
r
g
min
h
∈
H
∼
D
^
m
i
n
(
ϵ
^
(
h
)
)
\hat{h}=arg\min_{h\in H \sim \hat{D}}min(\hat{\epsilon}(h))
h^=argminh∈H∼D^min(ϵ^(h)),
h
∗
=
a
r
g
min
h
∈
H
∼
D
m
i
n
(
ϵ
(
h
)
)
h^{*}=arg\min_{h\in H \sim D}min(\epsilon(h))
h∗=argminh∈H∼Dmin(ϵ(h))。
上式可以看作是PAC理论误差分析的VC版,而VC维中定义的假设空间的复杂度是定义在VC维上的,一般而言,VC维与模型的参数有关,特征的维度。