Foundations of Machine Learning 2nd——第二章 PAC学习框架后记
前言
这一小篇文章承接“Fundations of Machine learning 2nd”系列笔记的第二篇,本来想把PAC分两次写,后来发现第一次写的太多了,因此这篇文章的内容不是特别多~看这篇文章之前建议先读上半部分。
Generalities 一般性
这一节主要讨论了一些更为普遍的学习场景。
可确定性 VS 随机场景
大部分有监督学习场景下,
D
D
D分布式定义在
X
×
Y
X\times Y
X×Y上的,训练集样本独立同分布于
D
D
D:
S
=
(
(
x
1
,
y
1
)
,
.
.
,
(
x
m
,
y
m
)
)
S=((x_1,y1),..,(x_m,y_m))
S=((x1,y1),..,(xm,ym))
我们要学习的就是找到一个具有最小的generalization error的映射
h
∈
H
h\in H
h∈H:
R
(
h
)
=
P
(
x
,
y
)
∼
D
[
h
(
x
)
≠
y
]
=
E
(
x
,
y
)
∼
D
[
1
h
(
x
)
≠
y
]
R(h) = \mathop{P}\limits_{(x,y)\sim D}[h(x)\neq y] = \mathop{E}\limits_{(x,y)\sim D}[1_{h(x)\neq y}]
R(h)=(x,y)∼DP[h(x)=y]=(x,y)∼DE[1h(x)=y]
这种称为随机场景,标签的输出是一个关于输入的概率函数,输入样本的标签并不唯一。例如:如果根据身高体重的值来预测这个人是男是女,这个样本的标签就可以不唯一,有可能是男的,也有可能是女的。
把PAC-learning框架扩展到这一设定下,就称为“agnostic PAC-learning”
定义1 Agnostic PAC-learning
令
H
H
H是一个映射集,
A
A
A是agnostic PAC-learning算法的条件是:如果存在一个多项式函数
p
o
l
y
(
⋅
,
⋅
,
⋅
,
⋅
)
poly(·,·,·,·)
poly(⋅,⋅,⋅,⋅),使得对于任意的
ϵ
>
0
,
δ
>
0
\epsilon > 0, \delta > 0
ϵ>0,δ>0,对于
X
×
Y
X\times Y
X×Y上的所有分布
D
D
D,当样本量
m
≥
p
o
l
y
(
1
/
ϵ
,
1
/
δ
,
n
,
s
i
z
e
(
c
)
)
m\geq poly(1/\epsilon,1/\delta,n,size(c))
m≥poly(1/ϵ,1/δ,n,size(c))时,下式都成立:
P
S
∼
D
m
[
R
(
h
S
)
−
min
h
∈
H
R
(
h
)
≤
ϵ
]
≥
1
−
δ
\mathop{P}\limits_{S\sim D^m}[R(h_S)-\min\limits_{h\in H}R(h)\leq\epsilon]\geq1-\delta
S∼DmP[R(hS)−h∈HminR(h)≤ϵ]≥1−δ
如果
A
A
A可以在
p
o
l
y
(
1
/
ϵ
,
1
/
δ
,
n
)
poly(1/\epsilon,1/\delta,n)
poly(1/ϵ,1/δ,n)的时间内运行的话,就是efficiently agnostic PAC-learning算法。
当一个样本的标签是唯一的,并且存在可计算的函数 f : X → Y f:X\rightarrow Y f:X→Y来确定标签,这种情况被称为可确定的(deterministic)。这时只在输入空间考虑分布 D D D就足够了。训练样本是从 D D D采样的 ( x 1 , . . . , x m ) (x_1,...,x_m) (x1,...,xm),标签是通过 f : y i = f ( x i ) f:y_i = f(x_i) f:yi=f(xi)获得的。
Bayes error and noise 贝叶斯误差和噪声
根据我们上面的定义,在确定的情况下,存在一个目标函数他的generalization error R ( h ) = 0 R(h)= 0 R(h)=0,而对于随机场景,存在一个映射具有最小的非零误差。
定义2 Bayes error
给定一个在
X
×
Y
X\times Y
X×Y上的分布
D
D
D,贝叶斯误差
R
∗
R^*
R∗定义为可计算映射
h
:
X
→
Y
h:X\rightarrow Y
h:X→Y可以实现的最小误差:
R
∗
=
inf
h
,
m
e
a
s
u
r
a
b
l
e
R
(
h
)
R^*=\inf\limits_{h, measurable}R(h)
R∗=h,measurableinfR(h)
这样的映射成为“Bayes hypothesis”,贝叶斯映射,或者贝叶斯分类器。
显然,在可确定情况下
R
∗
=
0
R^*=0
R∗=0,随机情况下
R
∗
≠
0
R^*\neq 0
R∗=0
贝叶斯分类器也可以在条件概率下定义:
∀
x
∈
X
,
h
B
a
y
e
s
(
x
)
=
arg max
y
∈
{
0
,
1
}
P
[
y
∣
x
]
\forall x\in X,\quad h_{Bayes}(x)=\argmax\limits_{y\in\{0,1\}}P[y|x]
∀x∈X,hBayes(x)=y∈{0,1}argmaxP[y∣x]
h B a y e s 在 x ∈ X h_{Bayes}在x\in X hBayes在x∈X上的平均损失就是 min { P [ 0 ∣ x ] , P [ 1 ∣ x ] } \min\{P[0|x],P[1|x]\} min{P[0∣x],P[1∣x]},这也是最小可能损失。同时导出了noise的定义:
定义3 Noise
给定一个在
X
×
Y
X\times Y
X×Y上的分布
D
D
D,点
x
∈
X
x\in X
x∈X的noise定义如下:
n
o
i
s
e
(
x
)
=
min
{
P
[
1
∣
x
]
,
P
[
0
∣
x
]
}
noise(x)=\min\{P[1|x],P[0|x]\}
noise(x)=min{P[1∣x],P[0∣x]}
(一个贝叶斯分类器在点
x
x
x上的误差)
E
[
n
o
i
s
e
(
x
)
]
E[noise(x)]
E[noise(x)]即为平均噪声。
平均噪声即为贝叶斯误差:
E
[
n
o
i
s
e
(
x
)
]
=
R
∗
E[noise(x)]=R^*
E[noise(x)]=R∗。他是学习任务的一个特征,用来表示困难程度。对于一个样本
x
∈
X
x\in X
x∈X,他的
n
o
i
s
e
(
x
)
noise(x)
noise(x)接近
1
/
2
1/2
1/2时,就被认为是噪声点(noisy),学习起来十分困难,自然也会影响预测准确度。