1. 函数类的标注数量
函数类F中的一个函数f, 应用于一个观测数据集S, f会为每一个数据计算出一个预测标注。
设数据集S的数据数量是n, 则显然不管F中的函数有多少(甚至无限), 不同的标注最多只有 2ⁿ种标注, 所以是有限的。
所以对于数量无限的F, 必然有很多函数的标注是一样的, 对于这个观测数据集而言, 相同标注的函数是等价的。
经验最小化原理, 就是从这些函数中选出标注误差最小的一个函数。
显然, 标注数量是和函数类F和观测集S相关的函数。
对于大小为n的所有可能的观测集合, 标注数量的最大值, 称为增长函数, 显然增长函数只与F和n有关.
Φ(F, n) = max | {( (x1, f(x1)), ... . (xn, f(xn)) ) | f ∈ F, S∈Xⁿ } |
2. VC维
由于增长函数定义上需要考察所有可能的观测集, 因而对于无限的观测集而言, 是一个不可获得的理论量。
我们知道增长函数的上限是2ⁿ, 即是: Φ(F, n) ≤ 2ⁿ
如果某个大小为n的观测集, F 可以生成所有可能的标注, 即是 Φ(F, n) = 2ⁿ, 则称为样本集被F打碎.
一个函数类F, 对于样本集S, 当S比较小的时候, F能打碎它, 但是随着S增大, 打碎就会变得越来越困难,
如果存在一个整数v, 当|S| = v, F能打破它, 但是F不能打破|S|=v+1. 即是说v是F能打破的最大数量。
则v称为F的VC维。
即是VC维是满足 Φ(F, v) = 2ᵛ 的最大的v.
如果不存在这个v, 即是F可以打碎任意规模的观测集, 着称为VC维是无限的。
定理:
当且仅当函数类F的VC维是有限的, 经验风险一致性原理是有效的。