机器学习基石 ------ Theory of Generalization
Restriction of break point
Bounding Function :Basic Cases
Bounding Function:Inductive
A Pictorial Proof
成长函数 mH(N) 在n个点上最多生成多少个dichotomy
bounding function B(N,k):
成长函数 mH(N) 这个成长函数的break point 为 k
那么这个成长函数最多有多少种dichotomy
shatter 对于k个点不会出现所有的2k种可能
B(N,k)对于N个点 任何k个点不能shatter
对于break point =2 的情形 成长函数 mH(N) 在大于等于2的时候就小于等于 2N种 dichotomy,当N=3 的时候 因为break point 等于2 所以任意两个点都不能够shatter 经过实验可得 mH(3)=4
如果mh(N) break point 为k 是否是一个多项式的增长过程 而不是指数增长
再进一步而言 如果不管函数是什么样子 能否只通过 break point 就找到 mh(N) 的上限 呢
从之前的推导我们已经知道了 如果有两个点 break point 为2 那么B(2,2)为3
如果有N个点 break point 为1 那么 只能有一个dichotomy 因为无论怎么增加 只要和第一个有一个位置不同 那么这个点上就会shatter
当没有任何条件限制的是偶 k>N 时 如果B(N,k)最大最大有2N种dichotomy
当N=k 时 因为break point 的定义 不可能出现 2N种dichotomy 那么最大最大能出现 2N-1种
对于剩下的点较为难以填写 以B(4,3)为例 如何将B(4,3) 联系到B(3,?)上
通过程序遍历 可以得到B(4,3)=11 把这11个分成两个部分 前8种x1,x2,x3 相同 x4 相反 后三种单独出现
因此如果把 B(4,3) 可以写成两部分相加
如果我们把第四行遮掉 只看前三个 因为橘色的部分有两个重复 并且这四个每3个都不是shatter的 那么前三个也都不是shatter的 那么α+β<=B(3,3)
同理因为橘色的部分中有两列是shatter的 加上第四列一定有3列shatter 这和假设矛盾 所以橘色的部分任意两个都不是shatter的 α<B(3,2)
由上述递推公式可以得到 B(N,k)最大值是一个多项式 多项式最高项为Nk
因此整个成长函数的上限和break point k的多项式那么大