林轩田之机器学习课程笔记(why can machines learn之training versus testing)(32之5)

欢迎转载,可以关注博客:http://blog.csdn.net/cqy_chen

概要

本节主要讲训练和测试有什么不一样。上节中说到机器学习不可行,但是有的情况下是可以的。当假设空间有限,同时资料来自某一个分布。本节讲述当假设空间无限的时候会如何。

前文总结

上节中,我们讲到假如测试资料和训练资料来自同一个分布,如果假设空间有限,那么我们说机器学习是可行的。
这里写图片描述
那么前面四节中主要围绕了两个问题:

1) EinEout?
2) 使Ein
那么上节课中提到的M扮演了什么角色呢?
这里写图片描述
当M很小的时候
1)根据霍夫丁不等式, EinEout 在大部分情况下都是很接近的。满足第一个条件。
2)但是当M很小的时候,假设空间可选的假设就很少了,这个时候就会导致不一定能找到一个假设使得 Ein 很小。

当M很大的时候
1)那么根据霍夫丁不等式, EinEout 很大可能不接近。就是机器学习学习不到东西。
2)但是我们可能能找到一个假设使得 Ein 很小。

那么能不能将M替换成一个小小的m呢?
这里写图片描述
假如我们可以找到一个小的m比M小很多,来替换M。是不是就很不错了呢?

有效的切分直线

回顾上节,我们到底为什么会的到很大的M呢?
这里写图片描述
我们可以看到这里直接用的加号。
实际的情况呢?比如在PLA中,两条很相近的直线,那么他们的 EinEout 应该是很接近的。这样的话,其实实际情况是不应该使用加法,而应该去掉重叠的部分:
这里写图片描述
我们以PLA为例:在二维平面中,有着无数条线,可不可以将这些线进行分类呢?很多线是具有差不多的 EinEout 的。我们可以从资料出发,因为资料是有限的。
如果资料只有一笔,那么有几类线呢?只有两种嘛。一种判断是+1,一种判断是-1。
如果有两个点呢?
这里写图片描述
这样就就产生了4种线条。
如果是三个点呢?就产生了8种线条。如果三个点排列在一起的话,就只有6种。

这里写图片描述

如果是4个点呢?
这里写图片描述
这个时候是只有14种线条,而不是16种。
这里写图片描述
当资料的数量增长的话,根据霍夫丁不等式,有限的线条是远小于指数式的增长的。那么就会导致 EinEout 很接近。所以尽管有很多很多线条,但是如果我们的假设空间的数量增长很慢的话,证明机器学习是可以学习到东西的。

有效的假设空间

这里以二分类为例。假设每条直线将资料分开后,这些资料被判断为+1或者-1。那么,如下图;
这里写图片描述
假设空间的线条最大上线是 2N 个。
这里定义一个函数:增长函数,就是 mh(N) ,就是根据资料个数,得到最大的一个假设空间。
这里写图片描述
这里再简单点,假如是在一维空间中,只有正方向是+1,负的方向是-1。那么可以得到 mh(N)=N+1 ,这个是远远小于 2N .
这里写图片描述
假如假设空间是一个凸集呢?
这里写图片描述
其实我们得到了如下一些空间的成长函数:
这里写图片描述

断点(break point)

这里再来一个定义,断点:成长函数是随着资料的增长而增长的,那么我们称第一个不能被完全分割的点为断点。
比如在二维的PLA中,前面三个点都可以被划分开,而到第四个点,就找不到 2N 中划分方法了,所以我们说二维的PLA的断点是4。
这样我们可以得到:
这里写图片描述
那么这个断点到底是多少呢?
这里留下一个悬念:
这里写图片描述
我们说断点个数和资料量以及维度相关, O(Nk1)
这样的数量级。

要后续证明,请听下回分解。
欢迎转载,可以关注博客:http://blog.csdn.net/cqy_chen

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值