机器学习基石------Training versus Testing

最新推荐文章于 2020-11-05 16:39:37 发布

1只小包子

最新推荐文章于 2020-11-05 16:39:37 发布

阅读量276

点赞数

分类专栏：机器学习基石文章标签：机器学习基石

本文链接：https://blog.csdn.net/a940902940902/article/details/83986573

版权

机器学习基石专栏收录该内容

19 篇文章 1 订阅

订阅专栏

机器学习基石 ------Training Versus Testing

Effective number of hypotheses

重点：
1.如何确保在E_in 能在训练样本上接近0
2.确保在E_in 和E_out接近
3. 存在一个未知的f 我们想要通过演算法找到一个g，使得这个g和未知的f足够相似，即E_out（g）要接近0，即使用未知的数据在我们找到的g上做运算错误率要尽量接近0. 对于这件事情我们最开始采取的方法是我们要确保演算法找到的g在已知的数据上错误率足够小即 E_in（g）足够接近0 在第四节课时我们证明了当hypothesis set较小的时候 E_in≈E_out 这样我们就能够确保在 E_in上取得较小的错误率的g能够保证在 E_out上也取得较小的错误率

Recap and Preview

在这里插入图片描述

可以看出上述两个重点都和hypothesis set的数量我们使用M表示
在这里插入图片描述
当M很小的时候根据第四节课我们得到的霍夫丁不等式 P[Bad]=P[|E_in-E_out|>ε] <=2M*exp(-2ε²n) 但是当M很小时不一定能够选到一个使得E 对于较大的M同理
但是在之前接触到的感知机模型它的hypothesis 是无限多的而霍夫丁不等式中的M是有限大的那么我们是不是可以使用一个有限大的m来代替M

我们要做的就是当M为无限大的时候扩展的霍夫丁不等式是否也满足
在这里插入图片描述

Effective number of lines

![在这里插入图片描述](https://img-blog.csdnimg.cn/20181112221933541.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L2E5NDA5MDI5NDA5MDI=,size_16,color_FFFFFF,t_70) 当存在m个hypothesis的时候对于每一个hypothesis h _m 出现bad event 即 |E _in( h _m) - E _out ( h _m)|>ε 对于m个hypothesis 可能其中某些hypothesis在训练资料上会出现bad event的情况根据union bound可知 P（B ₁ or B ₂ .... ）< = 它们的和但是当M无限大的时候那么这个boud就没有意义了因为相加就是无限大但是上述假设是建立在每一个hypothesis出现bad event 的时候训练的资料是不重叠的但是对于相近的hypothesis 它们出现bad event的时候通常资料也是重叠的例如感知机模型虽然存在无数个hypothesis 但是两个很接近的分割线对应的E _in也是一样的但是我们在使用Union bound的时候是把他们当做完全不重叠的区域来处理的即总体的union bound 应该远远小于 2Mexp(-2ε ₂N)

在这里插入图片描述

Effective number of hypotheses

现在要做的是找出重叠的部分我们可以想象对于相似的hypothesis 他们对应的Bad event也是类似的
以PLA为例当空间中有一个点的时候虽然PLA有无数种可能但是只有两类
同理对空间中有两个点 PLA无数种hypothesis中只有四类
如果可以用有限的effective（N)来取代无限的M 同时 effective（N）如果可以远远小于2_N 那么当N足够大的时候误差会趋近于0
在这里插入图片描述

就二分类而言对于N个点有2^N种可能但是对于N=4 之后其取值远远达不到2^N种线性可分的情况，因此我们可以把M种hypothesis替换为effective(N) 当effective（N）远远小于2^N时上述union bound 具有确切上限

这时我们跳离线性可分这个概念对于空间中的点我们可以使用曲线等等将其分成两类那么究竟具有几种分割的方式呢我们把hypothesis set应用到空间中的资料 x1 x2 …xn N笔资料中得到dichotomies

在这里插入图片描述

dichotomy ：一个hypothesis set 可以得到多少个不同的dichotomy
以二维空间为例 hypothesis 可能是二维空间中的任意一条线具有无数中可能而 dichotomy 是和x1，x2…xN有关
最多有2^N种可能

这里我们也看到了 dichotomy 其实是和x1 x2 x3 …xn的分布有关系的对于不同的x分布它的dichotomy是不一样的
例如在二维空间中分3个点
在这里插入图片描述
这样的分布可能有8种划分的可能
但是对于如下的分布

就只有6种可能的划分
可见dichotomy是对X 有依赖的我们想要移除这种依赖能够对所有的X都适用因此我们取所有可能的最大值记做
m_H(N) 称为成长函数

在这里插入图片描述

break point

在这里插入图片描述
成长函数m_H 如果在第k个点不是shattered 的即不能得到2_N 种 dichotomy 那么k称为break point

1只小包子

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
机器学习基石------Training versus Testing

机器学习基石 ------Training Versus TestingRecap and PreviewEffective number of lines Effective number of hypotheses Break pointRecap and Preview
复制链接

扫一扫