《机器学习基石》6-Theory of Generalization

本文探讨了机器学习中'break point'与最大二分数量mH(N)的关系,通过实例分析了k=2时mH(3)的最大可能值。引入bounding function B(N,k),并用递归方法解决复杂情况,最后通过数学归纳法证明了B(N,k)的界限。" 111348508,10295961,数据结构与算法及OS读书笔记整理,"['算法', '数据结构', '操作系统', '读书笔记', 'Python']
摘要由CSDN通过智能技术生成

Restriction of Break Point

上次我们说到,需要探究 “break point” k k m H ( N ) 之间的关系。回顾一下, mH(N) m H ( N ) 表示假设空间在 N N 个样本点上能产生的最大二分数量, k 表示不能满足完全分类情形的样本点数。

让我们来探讨一下,当 k k 确定时, m H ( N ) 的最大可能取值,下面使用一个例子来进行探讨。

Example: Break Point k=2 k = 2

根据 break point 的定义

  • 当样本数为 N=1 N = 1 时,需要满足样本完全二分的情况,因此 mH(1)=21=2 m H ( 1 ) = 2 1 = 2
  • 当样本数为 N=2 N = 2 时,不可满足样本完全二分的情况,因此 mH(2)<22=4 m H ( 2 ) < 2 2 = 4 ,最多为 mH(2)=3 m H ( 2 ) = 3
  • 当样本数为 N=3 N = 3 时,同样不可满足样本完全二分的情况,因此 mH(3)<23=8 m H ( 3 ) < 2 3 = 8 ,但是由于 mH(2) m H ( 2 ) 已经存在上限 mH(2)<4 m H ( 2 ) < 4 ,因此 mH(3) m H ( 3 ) 的值会有更严格的上限。根据实验可以得到 mH(3)<5 m H ( 3 ) < 5

k=2 k = 2 mH(3)<5 m H ( 3 ) < 5 的含义是:当样本数为 N=3 N = 3 时,假设空间最多有 4 4 种分类结果,使得对任意 k = 2 个样本,不能满足完全分类的情形。

以上的分析比较晦涩难懂,我们使用图片重新说明一下。可以看到当只有 1,2,3 1 , 2 , 3 种分类结果的时候,任意两个样本都不会出现完全分类的情形。当有 4 4 种分类结果的时候,可能会出现有两个样本完全分类的情况,也可能不出现这种情况。而有 5 种分类结果的时候,始终会出现有两个样本完全分类的情况。因此,二分类结果最多只能有 4 4 种。




Bounding Function: Basic Cases

我们将刚才讨论的东西起一个名字,叫做 bounding function B ( N , k ) ,表示当 break point 为 k k 的时候,

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值