西瓜书学习笔记二 假设空间 机器学习周志华

1.3 假设空间

        归纳(induction)演绎(deduction)是科学推理的两大基本手段。前者是从特殊到一般的"泛化" (generalization) 过程,即从具体的事实归结出一般性规律;后者则是从一般到特殊的"特化" (specialization)过程,即从基础原理推演出具体状况。例如,在数学公理系统中,基于一组公理和推理规则推导出与之相洽的定理,这是演绎;而"从样例中学习"显然是一个归纳的过程,因此亦称 "归纳学习" (inductive learning)

        归纳学习有狭义与广义之分,广义的归纳学习大体相当于从样例中学习, 而狭义的归纳学习则要求从训练数据中学得概念(concept) ,因此亦称为"概念学习"或"概念形成"。概念学习中最基本的是布尔概念学习,即对"是" "不是"这样的可表示为 0/1 布尔值的目标概念的学习。

例如我们获得了一个这样的训练数据集:

         这里要学习的目标是"好瓜"。暂且假设"好瓜"可由"色泽" "根蒂" "敲声"这三个因素完全确定,换言之,只要某个瓜的这三个属性取值明确了, 我们就能判断出它是不是好瓜。于是,我们学得的将是"好瓜是某种色泽、某种根蒂、某种敲声的瓜"这样的概念,用布尔表达式写出来则是"好瓜\leftrightarrow(色泽 =?) ^(根蒂=?) ^ (敲声=?) ",这里 “?” 表示尚未确定的取值,而我们的任务就是通过对表1.1的训练集进行学习,把"?"确定下来。我们学习的目的是“泛化”,即通过对训练集中瓜的学习以获得对没见过的瓜进行判断的能力。

        我们可以把学习过程看作一个在所有假设(hypothesis) 组成的空间中进行搜索的过程,搜索目标是找到与训练集"匹配"(fit) 的假设,即能够将训练集中的瓜判断正确的假设。假设的表示一旦确定,假设空间及其规模大小就确定了。这里我们的假设空间由形如"(色泽=?)^(根蒂=?) ^ (敲声=?)"的可能取值所形成的假设组成。

         可以有许多策略对这个假设空间进行搜索,例如自顶向下、从一般到特殊, 或是自底向上、从特殊到一般,搜索过程中可以不断删除与正例不一致的假设、和(或)与反例一致的假设。最终将会获得与训练集一致(即对所有训练样本能够进行正确判断)的假设,这就是我们学得的结果。

        现实问题中我们常面临很大的假设空间,但学习过程是基于有限样本训练集进行的,因此,可能有多个假设与训练集一致,即存在着一个与 训练集一致的"假设集合",我们称之为"版本空间" (version space)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值