两个中心问题two central questions
可以将learning拆成两个问题:
1.Ein(g)和Eout(g)是否很接近;
2.怎样才能使得Ein(g)变得越小越好?
那么H假定集的大小M对于上面的两个问题有什么影响呢?
bad things就是Ein(g)和Eout(g)差别特别大far away;
当M很小时,就说明发生坏事情的概率很小;但是此时可选择的H比较少。
当M很大时,就说明发生坏事情的概率很大;此时可选择的H比较多。
所以M的选择是很重要的!!
那么当M无穷大时,就无法满足uniform bound的不等式
为什么当M无穷大时就无法进行呢?因为此时的B1,B2,B3……有很大程度的重叠overlapping,overlapping for similar hypotheses h1和h2很接近。所以使用union bound就会高估了overestimating,上面的不等式并没有考虑到重叠的影响。
所以要想方法找出这些“坏事情”的重叠部分:第一步,把无限多个H分成有限的类,分类好以后的类相似。
那么要怎样把它分成一类一类的呢?How many lines are there?
1.对于input vector x来说,只有两条线。其中一条线把x1划分到圆圈,另一条线把x1划分到叉叉。
2.那么对于两个x1和x2呢?
3.那么当inputs为x1,x2,x3时是怎样的?
当有三个输入变量时,最多有8条线。当时当x1,x2,x3在一条直线上时,就有两条线是无法实现的!所以这种情侣下只有6条线,所以当有三个输入变量时,最多最多只有8条。
4.那么输入变量有四个x1,x2,x3,x4时是怎样的?
右边的图示对应另外8个分割的情况,有两个情况是无法实现的,所以最多最多只有16-2=14条线。
Effective Number of Lines
effective number of lines就是“有效的线”的最大值。
补充:当有5个输入变量x1,x2,x3,x4,x5时,effective number of lines=22
希望可以找到一个东西来代替M,使他变成有限的。
上面的所有操作就是想用Effective(N)来代替M!!但是具体是否可行还需要后续的证明。