无限假设集(The case of infinite H)

我们已经证明了一些在有限假设集下成立的结论。但很多假设类实际包含了无限个函数,这种情况我们是否可以给出相似的结论?

让我们先举个不恰当的例子,它有助于我们的直观理解。

假设集 H 的空间由 d 个实参数控制。我们用电脑存储这些实数,而在电脑中一个double类型的实数需要用64位来表示。所以我们的假设类中包含了264d个假设,由有效假设的结论可知,要保证 ε(h^)ε(h)+2γ 的概率大于 1δ ,样本数量必须满足 mO(1γ2log264dδ)=O(dγ2log1δ)=Oγ,δ(d) ,因此样本数量和模型参数是线性相关。

用64位浮动点的例子来表示模型参数可能不是很正确,但得出的结论是完全正确的:为了实现训练误差最小化,训练样本数和假设类的参数个数线性相关

VC维(Vapnik-Chervonenkis dimension)的定义:对于任一假设集 H VC(H) 表示能被假设集 H 分割的最大样本集的样本数。

例如,含有三个点的样本集:

这里写图片描述

对于样本所有可能的情况,假设集 H 是否都能分割?答案是yes。

shatter point

而对于4个样本点的情况,咋不能完全分割。

这里写图片描述

所以 VC(H)=3

定理:对任一假设集 H ,令 d=VC(H) ,概率大于 1δ ,有:

|ε(h)ε^(h)|O(dmlogmd+1mlog1δ)

还有:

ε(h^)ε(h)+O(dmlogmd+1mlog1δ)

即是说,如果假设类的VC维是有限数,当样本数 m 足够大时,假设将会一致收敛。即可以用最优训练误差ε(h)表示泛化误差 ε(h) 的范围。

同理要使 |ε(h)ε^(h)|γ 对所有假设成立的概率至少为 1δ ,样本数量 m 必须满足:

m=Oγ,δ(d).

由于VC维一般与假设集的参数个数线性相关,所以样本数(样本复杂度)与假设集的参数个数线性相关

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值