机器学习基石------Training versus Testing

机器学习基石 ------Training Versus Testing

Recap and Preview
Effective number of lines
Effective number of hypotheses
Break point

重点:
1.如何确保在Ein 能在训练样本上接近0
2.确保在Ein 和Eout接近
3. 存在一个未知的f 我们想要通过演算法找到一个g,使得这个g和未知的f足够相似,即Eout(g)要接近0,即使用未知的数据在我们找到的g上做运算 错误率要尽量接近0. 对于这件事情我们最开始采取的方法是我们要确保演算法找到的g在已知的数据上错误率足够小 即 Ein(g)足够接近0 在第四节课时我们证明了当hypothesis set较小的时候 Ein≈Eout 这样我们就能够确保在 Ein上取得较小的错误率的g能够保证在 Eout上也取得较小的错误率

Recap and Preview

在这里插入图片描述

可以看出上述两个重点都和hypothesis set的数量 我们使用M表示
在这里插入图片描述
当M很小的时候 根据第四节课我们得到的 霍夫丁不等式 P[Bad]=P[|Ein-Eout|>ε] <=2M*exp(-2ε2n) 但是当M很小时 不一定能够选到一个使得E 对于较大的M同理
但是在之前接触到的感知机模型 它的hypothesis 是无限多的 而霍夫丁不等式中的M是有限大的 那么我们是不是可以使用一个有限大的m来代替M

我们要做的就是当M为无限大的时候扩展的霍夫丁不等式是否也满足
在这里插入图片描述

Effective number of lines
![在这里插入图片描述](https://img-blog.csdnimg.cn/20181112221933541.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L2E5NDA5MDI5NDA5MDI=,size_16,color_FFFFFF,t_70) 当存在m个hypothesis的时候 对于每一个hypothesis h m 出现bad event 即 |E in ( h m) - E out ( h m)|>ε 对于m个hypothesis 可能其中某些hypothesis在训练资料上会出现bad event的情况 根据union bound可知 P(B 1 or B 2 .... )< = 它们的和 但是当M无限大的时候 那么 这个boud就没有意义了 因为相加就是无限大 但是上述假设是建立在每一个hypothesis出现bad event 的时候训练的资料是不重叠的 但是对于相近的hypothesis 它们出现bad event的时候通常资料也是重叠的 例如感知机模型 虽然存在无数个hypothesis 但是两个很接近的 分割线对应的E in也是一样的 但是我们在使用Union bound的时候是把他们当做完全不重叠的区域来处理的 即 总体的union bound 应该远远小于 2Mexp(-2ε 2N)

在这里插入图片描述

Effective number of hypotheses

现在要做的是找出重叠的部分 我们可以想象对于相似的hypothesis 他们对应的Bad event也是类似的
以PLA为例 当空间中有一个点的时候 虽然PLA有无数种可能 但是只有两类
同理对空间中有两个点 PLA无数种hypothesis中只有四类
如果可以用有限的effective(N)来取代无限的M 同时 effective(N)如果可以远远小于2N 那么当N足够大的时候误差会趋近于0
在这里插入图片描述

就二分类而言 对于N个点有2N种可能 但是对于N=4 之后 其取值远远达不到2N种线性可分的情况,因此我们可以把M种hypothesis替换为effective(N) 当effective(N)远远小于2N时 上述union bound 具有确切上限

这时我们跳离线性可分这个概念 对于空间中的点我们可以使用曲线等等将其分成两类 那么究竟具有几种分割的方式呢 我们把hypothesis set应用到空间中的资料 x1 x2 …xn N笔资料中 得到dichotomies

在这里插入图片描述

dichotomy : 一个hypothesis set 可以得到多少个不同的dichotomy
以二维空间为例 hypothesis 可能是二维空间中的任意一条线 具有无数中可能 而 dichotomy 是和x1,x2…xN有关
最多有2N种可能

这里我们也看到了 dichotomy 其实是和x1 x2 x3 …xn的分布有关系的 对于不同的x分布它的dichotomy是不一样的
例如在二维空间中分3个点
在这里插入图片描述
这样的分布可能有8种划分的可能
但是对于如下的分布
在这里插入图片描述
就只有6种可能的划分
可见dichotomy是对X 有依赖的 我们想要移除这种依赖 能够对所有的X都适用 因此我们取所有可能的最大值 记做
mH(N) 称为成长函数

在这里插入图片描述

break point

在这里插入图片描述
成长函数mH 如果在第k个点不是shattered 的 即不能得到2N 种 dichotomy 那么k称为break point

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值