Lecture 2 Classifier between Pokemon and Digmon

Lecture 2: Classifier between Pokemon and Digimon

image-20220826163451890

宝可梦、数码宝贝分类器

Pokemon / Digimon Classifier

image-20220826164948386

Observation

image-20220826165112553 image-20220826165505323

Function with Unknown Parameters

image-20220826165719145

Loss of a function (given data)

image-20220826171329716

Training Examples

image-20220826204300779

如上图所示,在理想情况下,我们希望从所有的 Pokemon 和 Digimon 中找到最佳的阈值 h a l l h^{all} hall;而实际情况是我们只有部分的 Pokemon 和 Digimon 数据,因此我们根据训练数据只能得到阈值 h t r a i n h^{train} htrain。我们希望 L ( h a l l , D a l l ) L(h^{all},D_{all}) L(hall,Dall) L ( h t r a i n , D a l l ) L(h^{train},D_{all}) L(htrain,Dall) 越接近越好。

image-20220826205753470

如上图所示,我们假设目前的图鉴中的所有 Pokemon 和 Digimon 的数据作为 D a l l D_{all} Dall,计算出最佳的 h a l l = 4824 h_{all}=4824 hall=4824 L ( h a l l , D a l l ) = 0.28 L(h_{all},D_{all})=0.28 L(hall,Dall)=0.28

接下来,在不同的训练集上计算 h i ,   L ( h i , D t r a i n i ) h_i,\ L(h_i,D_{{train}_i}) hi, L(hi,Dtraini)

image-20220826212012992

上图中 L ( h t r a i n 1 , D t r a i n 1 ) < L ( h a l l , D a l l ) L(h^{train1},D_{train1})<L(h^{all},D_{all}) L(htrain1,Dtrain1)<L(hall,Dall) 是因为前者只在 D t r a i n 1 D_{train1} Dtrain1 上计算了损失。我们真正关心的是 L ( h t r a i n 1 , D a l l ) L(h^{train1},D_{all}) L(htrain1,Dall)。此时非常幸运,理想和现实统一了。

image-20220826212729503

上图这种情况,理想与现实差距较大。

我们希望理想与现实无限接近,即:
L ( h t r a i n , D a l l ) − L ( h a l l , D a l l ) ≤ δ (1) L({\color{blue} h^{train}},{\color{red}D_{all}})-L({\color {red}h_{all},D_{all}})\le \delta \tag{1} L(htrain,Dall)L(hall,Dall)δ(1)
δ \delta δ 是需要指定的。那么,什么样的训练集 D t r a i n D_{train} Dtrain 能够满足式 ( 1 ) (1) (1) 要求呢?
∀ h ∈ H ,   ∣ L ( h , D t r a i n ) − L ( h , D a l l ) ∣ ≤ δ / 2 (2) \forall {\color {green} h}\in {\mathcal H},\ |L({\color {green} h},{\color{blue} D_{train}})-L({\color {green} h},{\color{red} D_{all}})| \le \delta/2 \tag{2} hH, L(h,Dtrain)L(h,Dall)δ/2(2)
H \mathcal H H 见 [Function with Unknown Parameters](#Function with Unknown Parameters)。当训练集 D t r a i n D_{train} Dtrain 满足式 ( 2 ) (2) (2) 时,理想与现实就能无限接近。此时的 D t r a i n D_{train} Dtrain D a l l D_{all} Dall 的一个足够好的代表,在给定任意 h h h 的情况下,计算出的 L o s s Loss Loss 都相差不大。以式 ( 2 ) (2) (2) 为前提,式 ( 1 ) (1) (1) 的证明如下:

image-20220827231745291

1 1 1 和 第 3 3 3 行,将式 ( 2 ) (2) (2) 中的绝对值打开、移项、带入不同的 h h h 就能得到;第 2 2 2 行,用了一个简单的放缩

将式 ( 2 ) (2) (2) 换一种表达方式,如下图所示;同时提出问题 —— 抽样到坏训练集的概率有多大?

image-20220827232235219
Probability of Failure

接下来的讨论需要注意以下几点:

image-20220827232814229 image-20220827233120251

如上图所示,图中的每个点代表一组训练集,训练集的好坏用不同颜色标出;我们的目的是估计出橙色点出现的概率:

image-20220827233526808

对坏训练集的定义如下:

image-20220827234438491

考虑到重叠的情况,需要对 P ( D t r a i n   i s   b a d ) P(D_{train}\ is\ bad) P(Dtrain is bad) 加上上界,即下图中的求和式子:

image-20220827234535274

霍夫丁不等式

image-20220828000155369 image-20220828000422601 image-20220828000902797 image-20220828000944759
Example
image-20220828001218006 image-20220828001558917

Model Complexity

image-20220828002022422 image-20220828002615967
Tradeoff of Model Complexity

我们期待更大的 N N N 和 更小的 ∣ H ∣ |\mathcal H| H 以实现理想与现实的统一;但是更小的 ∣ H ∣ |\mathcal H| H 会导致更大的 L ( h a l l , D a l l ) L(h^{all},D_{all}) L(hall,Dall),在一个更大的损失上维持理想与现实的统一是没有意义的。我们要做的是平衡这两者的关系 —— 引出 Deep Learning。

image-20220828003244494
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值