吃瓜教程——第一章(读书笔记)



一、引言

《机器学习》这本书是由周志华老师写的,在引言中提及到了西瓜,而且后面的内容也是围绕着西瓜来展开机器学习各方面的例子,因此此书又被称为西瓜书,在引言中提及到的一些概念,我认为是比较重要的

  • 机器学习:是一门致力于研究如何通过计算的手段,利用经验改善系统自身的性能,将我们日常生活中的经验通过转化为计算机能识别的数据类型存储在计算机中,并对其进行一定的研究,从这些“经验”中产生出模型——学习算法(learning algorithm)”
    周志华老师提出了一个问题,就是什么是机器学习?
    答:我认为机器学习是用来对现实问题的一种解决办法的方法

二、基本术语

  • 数据集:是将一类实体的所具有的特征的集合,在数据库中,数据集又叫实体型,其中每一条的数据又叫元组
  • 属性:反映事件或对象在某个方面的表现或性质的事项,属性的取值叫做属性值,即每一列中的取值
  • 样本空间:属性张成的空间,即西瓜有色泽,根蒂,敲声三个特征值来组成一个样本空间
  • 维数:一个元组中含有多个特征,这些特征的个数便是维数
  • 训练集和测试集:一个数据集中可以划分出训练集和测试集,其中训练集是用于将这些经验让计算机进行学习,而测试集则是一些计算机没见过的情况,让计算机从训练集中训练得到的模型进行实际的调试
  • 分类和回归:两大类型的算法,分类要做的是对一个实体进行预测,定性上预测出这个东西是好的还是坏的,而回归则是对实体在量化上的预测,定量的预测出这个东西的好坏,比如通过概率,比如该西瓜是好瓜的概率为0.75,该西瓜为坏瓜的概率是0.25
  • 监督学习无监督学习:区分这两种算法的标志是,数据集中有无具有代表性的标签,监督学习则是通过这些标签来区分出一些东西的好坏,而无监督学习则是数据集中没有标签,单纯通过给出的特征让计算机进行学习
  • 泛化:机器学习的目标是使得学的模型能够很好的适用于新样本,而不是仅仅在训练样本上工作得好,因此在新样本上能够很好的适应的模型称为泛化能力高的模型

三、假设空间

假设空间:机器学习中可能的函数构成的空间称为“假设空间”。监督学习的目的在于学习一个由输入到输出的映射,这一映射由模型来表示。换句话说,学习的目的就在于找到最好的这样的模型。模型属于由输入空间到输出空间的映射的集合,这个集合就是假设空间(hypothesis space)。假设空间的确定意味着学习的范围的确定。
周志华老师在书中举得一个例子
在这里插入图片描述

版本空间:与训练集一致的“假设集合”。
周志华老师在书中给出的版本空间示意图如下所示
在这里插入图片描述
从西瓜的例子中可以看出版本空间的构建通过对训练集中与正例不一致或者与反例相同的例子去掉后,得到的便是版本空间


四、归纳偏好

归纳偏好:在机器学习中,算法在学习过程中对某种类型假设产生一定的偏好
举个栗子:比如我们人在择偶的时候,通过在不断的看结婚对象,从而不断的训练出在好看的人中,也会有一个令自己觉得对方是自己的理想型的“白马王子”或者是“白雪公主”,这便是我们人的一种偏好,从计算机的角度来说,计算机从训练集中学习到的模型对数据集中的部分数据存在一定的偏好,而对一些数据不怎么喜欢

“没有免费的午餐”定理证明
在这里插入图片描述


五、课后作业

5.1 证明题

在这里插入图片描述


六、总结

通过阅读本章节,让我对一些机器学习中的概念有所了解,包括版本空间、假设空间是什么,现在目前有什么类型的机器学习的算法,他们的区分的标准是什么,以及对NFL定理有了一定的了解

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值