Lecture 2: Classifier between Pokemon and Digimon
文章目录
宝可梦、数码宝贝分类器
Pokemon / Digimon Classifier
Observation
Function with Unknown Parameters
Loss of a function (given data)
Training Examples
如上图所示,在理想情况下,我们希望从所有的 Pokemon 和 Digimon 中找到最佳的阈值 h a l l h^{all} hall;而实际情况是我们只有部分的 Pokemon 和 Digimon 数据,因此我们根据训练数据只能得到阈值 h t r a i n h^{train} htrain。我们希望 L ( h a l l , D a l l ) L(h^{all},D_{all}) L(hall,Dall) 和 L ( h t r a i n , D a l l ) L(h^{train},D_{all}) L(htrain,Dall) 越接近越好。
如上图所示,我们假设目前的图鉴中的所有 Pokemon 和 Digimon 的数据作为 D a l l D_{all} Dall,计算出最佳的 h a l l = 4824 h_{all}=4824 hall=4824 和 L ( h a l l , D a l l ) = 0.28 L(h_{all},D_{all})=0.28 L(hall,Dall)=0.28。
接下来,在不同的训练集上计算 h i , L ( h i , D t r a i n i ) h_i,\ L(h_i,D_{{train}_i}) hi, L(hi,Dtraini):
上图中 L ( h t r a i n 1 , D t r a i n 1 ) < L ( h a l l , D a l l ) L(h^{train1},D_{train1})<L(h^{all},D_{all}) L(htrain1,Dtrain1)<L(hall,Dall) 是因为前者只在 D t r a i n 1 D_{train1} Dtrain1 上计算了损失。我们真正关心的是 L ( h t r a i n 1 , D a l l ) L(h^{train1},D_{all}) L(htrain1,Dall)。此时非常幸运,理想和现实统一了。
上图这种情况,理想与现实差距较大。
我们希望理想与现实无限接近,即:
L
(
h
t
r
a
i
n
,
D
a
l
l
)
−
L
(
h
a
l
l
,
D
a
l
l
)
≤
δ
(1)
L({\color{blue} h^{train}},{\color{red}D_{all}})-L({\color {red}h_{all},D_{all}})\le \delta \tag{1}
L(htrain,Dall)−L(hall,Dall)≤δ(1)
δ
\delta
δ 是需要指定的。那么,什么样的训练集
D
t
r
a
i
n
D_{train}
Dtrain 能够满足式
(
1
)
(1)
(1) 要求呢?
∀
h
∈
H
,
∣
L
(
h
,
D
t
r
a
i
n
)
−
L
(
h
,
D
a
l
l
)
∣
≤
δ
/
2
(2)
\forall {\color {green} h}\in {\mathcal H},\ |L({\color {green} h},{\color{blue} D_{train}})-L({\color {green} h},{\color{red} D_{all}})| \le \delta/2 \tag{2}
∀h∈H, ∣L(h,Dtrain)−L(h,Dall)∣≤δ/2(2)
H
\mathcal H
H 见 [Function with Unknown Parameters](#Function with Unknown Parameters)。当训练集
D
t
r
a
i
n
D_{train}
Dtrain 满足式
(
2
)
(2)
(2) 时,理想与现实就能无限接近。此时的
D
t
r
a
i
n
D_{train}
Dtrain 是
D
a
l
l
D_{all}
Dall 的一个足够好的代表,在给定任意
h
h
h 的情况下,计算出的
L
o
s
s
Loss
Loss 都相差不大。以式
(
2
)
(2)
(2) 为前提,式
(
1
)
(1)
(1) 的证明如下:
第 1 1 1 和 第 3 3 3 行,将式 ( 2 ) (2) (2) 中的绝对值打开、移项、带入不同的 h h h 就能得到;第 2 2 2 行,用了一个简单的放缩
将式 ( 2 ) (2) (2) 换一种表达方式,如下图所示;同时提出问题 —— 抽样到坏训练集的概率有多大?
Probability of Failure
接下来的讨论需要注意以下几点:
如上图所示,图中的每个点代表一组训练集,训练集的好坏用不同颜色标出;我们的目的是估计出橙色点出现的概率:
对坏训练集的定义如下:
考虑到重叠的情况,需要对 P ( D t r a i n i s b a d ) P(D_{train}\ is\ bad) P(Dtrain is bad) 加上上界,即下图中的求和式子:
由霍夫丁不等式:
Example
Model Complexity
Tradeoff of Model Complexity
我们期待更大的 N N N 和 更小的 ∣ H ∣ |\mathcal H| ∣H∣ 以实现理想与现实的统一;但是更小的 ∣ H ∣ |\mathcal H| ∣H∣ 会导致更大的 L ( h a l l , D a l l ) L(h^{all},D_{all}) L(hall,Dall),在一个更大的损失上维持理想与现实的统一是没有意义的。我们要做的是平衡这两者的关系 —— 引出 Deep Learning。