绪论(3)--周志华机器学习学习笔记与课后习题

写在前面的话

目前一段时间打算利用业务时间学习周志华版《机器学习》,周老师在机器学习界的实力很强,所以这本书不仅仅是一本介绍理论和算法的书籍,更是周老师关于机器学习相关问题的心得体会。如果你没有相关基础,学习一遍也会对机器学习有一个整体框架的了解;若你有了一定基础甚至怀着一些迷茫,读这本书更会有恍然大悟、原来如此之感触。在后续章节中,周老师基于篇幅的考虑有些算法不够详尽,我可能会参考李航老师的《统计学习方法》等书再做进一步补充。
总之,我愿与大家一起深入学习这本书,同时有三点说明:
1、内容会尽可能详尽而不繁琐,目录尽可能清晰明确
2、对于涉及到的概念、算法、课后习题,有留言的我会积极交流
3、白天还有其他事情要做,但我会尽力定期更新,也欢迎大家监督


今天要介绍的这部分是概念学习。

概念学习也属于机器学习中的一个分支,目前研究与应用都比较少,主要原因是学得泛化性能好且语义明确的概念实在是困难。然后今天介绍的目的是通过对概念学习的了解,有助于理解机器学习中的一些基本思想。

概念学习指的是从训练数据中学得概念。最基本的概念学习是布尔概念学习,即对“是”“否”这样的可表示为0/1布尔值的目的概念的学习。

还是以上次西瓜的例子来说明。
这里写图片描述
我们要学习的是“什么是好瓜”!而好瓜是由三个属性来表达的,分别是色泽、根蒂与敲声。
也即是说,如果一个瓜在这三个属性上都确定了,那么这个瓜就确定了。
于是,我们要学习的概念即是“好瓜是某种色泽、某种根蒂、某种敲声的瓜”。这就是我们最终的目的。
用数学的表达形式是“好瓜==(色泽=?)&(根蒂=?)&(敲声=?)”。我们的任务是通过对训练数据的学习,把概念中的各个?确定下来,于是就得到了好瓜的概念。

那么有人会说,上图中第一条样本不就是一个好瓜吗,是不是就可以得到好瓜的概念呢。我这里说,不全是。因为我们之前也说过,我们不仅要使得学习得到的规律适合训练数据集,更重要的是对未知样本要有很好的泛化能力。如果只是对训练数据中的好瓜都记录,那么遇到不在训练数据集中的样本,又当如何判断呢?
我们把学习过程看做一个在所有假设组成的空间进行搜索的过程。搜索过程是找到与训练集匹配的假设。假设空间的规模是根据我们样本的属性个数m和每个属性对应属性值个数d决定的。比如之前的西瓜例子,它有三个属性,即m=3;其中属性色泽有三个青绿、乌黑和浅白三个属性值,同理属性根蒂和属性敲声都有两个属性值,除此之外,每个属性还要考虑到“通配”的情况,也即是对于这个属性来说哪个属性值都不影响结果,用”*”表示。通过上面分析,属性空间规模是4*3*3;还有一种情况要考虑即是空集,也就是不存在好瓜。所以属性空间的规模是4*3*3+1=37。

这里写图片描述

那么对这个假设空间进行搜索,有很多种搜索策略主要有寻找极大特殊假设和候选消除算法。搜索过程中可以不断删除与正例不一样的假设,或删除与反例一样的假设。最终得到一个与训练集一致的假设,即是我们学习到的概念。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值