机器学习(西瓜书)-绪论笔记

1.1 引言

正如我们根据过去的经验来判断明天的天气,吃货们希望从购买经验中挑选一个好瓜,那能不能让计算机帮助人类来实现这个呢?机器学习正是这样的一门学科,人的“经验”对应计算机中的“数据”,让计算机来学习这些经验数据,生成一个算法模型,在面对新的情况中,计算机便能作出有效的判断,这便是机器学习

另一本经典教材的作者Mitchell给出了一个形式化的定义,假设:
P:计算机程序在某任务类T上的性能
T:计算机程序希望实现的任务类。
E:表示经验,即历史的数据集。
若该计算机程序通过利用经验E在任务T上获得了性能P的改善,则称该程序对E进行了学习。

1.2 基本术语

1.批关于西瓜的数据,例如(色泽=青绿;根蒂=蜷缩;敲声=浊响), (色泽=乌黑;根蒂:稍蜷;敲声=沉闷), (色泽=浅自;根蒂t硬挺;敲声=清脆),……

  • 所有记录的集合为:数据集
  • 每条记录是关于一个事件或对象(这里是一个西瓜)的描述,称为一个"样本"(或"示例")。
  • 反映事件或对象在某方面的表现或性质的事项,例如"色泽"
    “根蒂” “敲声”,称为属性 (或特征)。
  • 属性上的取值,例如"青绿" “乌黑”,称为"属性值" 。
  • 属性生成的空间称为"属性空间" ( “样本空间” 或"输入空间")。
  • 结合线性代数中向量空间内容,一个样本就是一个特征向量

2.训练生成算法模型的过程中:

  • 每一条记录称为一个训练样本
  • 所有训练样本的集合为训练集(特殊)

3.训练生成算法模型后:

  • 使用新的样本来测试模型的效果,则每一个新的样本称为一个测试样本
  • 所有测试样本的集合为测试集(一般)
  • 机器学习出来的模型适用于新样本的能力为泛化能力(即从特殊到一般)

[2:3]

  • 归纳:特殊 --> 一般(泛化)
  • 演绎:一般 --> 特殊(特化)

4.我们预测西瓜是好是坏,即好瓜与差瓜两种,是离散值。同样地,也有通过历年的人口数据,来预测未来的人口数量,人口数量则是连续值。

  • 预测值为离散值的问题为:分类(classification)。
  • 预测值为连续值的问题为:回归(regression)。

5.我们预测西瓜是否是好瓜的过程中,很明显对于训练集中的西瓜,我们事先已经知道了该瓜是否是好瓜,学习器通过学习这些好瓜或差瓜的特征,从而总结出规律,即训练集中的西瓜我们都做了标记,称为标记信息。但也有没有标记信息的情形,例如:我们想将一堆西瓜根据特征分成两个小堆,使得某一堆的西瓜尽可能相似,即都是好瓜或差瓜,对于这种问题,我们事先并不知道西瓜的好坏,样本没有标记信息。

  • 训练数据有标记信息的学习任务为:监督学习(supervised learning),容易知道上面所描述的分类回归都是监督学习的范畴。
  • 训练数据没有标记信息的学习任务为:无监督学习(unsupervised learning),常见的有聚类和关联规则。

聚类:将训练集中的样本分成若干组。
:每组称为一个“簇”,这些自动形成的“簇”可能对应一些潜在的概念划分。

以上概念感觉有很多是重复或者类似概念,在以后的学习中在强化记忆,更深刻的理解其中的含义。

1.3 假设空间

假设:学习模型对应了关于数据的某种潜在的规律。

假设空间:学习过程可看作一个在所有假设组成的空间中进行搜索的过程,搜索目标是找到能从训练集判断正确的假设。

也许"色泽"无论取什么值都合适,我们用通配符 " * " 来表示,有可能"好瓜"这个概念根本就不成立,世界上没有"好瓜"这种东西,我们用 ∅ 表示这个假设,这样,若"色泽" “根蒂” "敲声"分别有3、 2、 2 种可能取值,则我们面临的假设空间规模大小为 4 x 3 x 3 + 1 = 37。

版本空间:可能存在多个假设(可能互相冲突)与训练集一致,这一假设空间成为版本空间。

需注意的是,现实问题中我们常面临很大的假设空间?但学习过程是基于有限样本训练集进行的,因此,可能有多个假设与训练集一致,即存在着一个与训练集一致的"假设集合",我们称之为"版本空间"

个人理解:假设空间是所有可能假设,版本空间是其中一部分假设,假设空间包含版本空间。

1.4 归纳偏好

归纳偏好:机器学习算法在学习过程中对某种类型假设的偏好。
也就是对版本假设中的哪个假设更偏好一些(prefer)。
在这里插入图片描述
比如从有限的训练集中找到一条曲线,对应的学习算法可能偏好图1. 3 中比较"平滑"的曲线 A 而不是比较"崎岖"的曲线 B。

但学习算法A并不是最好的,"没有免费的午餐"定理(NFL定理):总误差与学习算法无关,无论学习算法A多聪明、学习算法B多笨拙,它们的期望性能相同。
必须要针对具体的学习问题,在某些问题上表现好的学习算法,在另一些问题上却可能不尽如人意,学习算法自身的归纳偏好与问题是否相配,往往会起到决定性的作用。

没有最好的算法,只有最合适的算法

1.5 发展历程

1、二十世纪五十年代到七十年代初,人工智能研究处于"推理期",那时人们以为只要能赋予机器逻辑推理能力,机器就能具有智能。
2、二十世纪七十年代中期开始,人工智能研究进入了"知识
期",简单地说,就是由人来把知识总结出来再教给计算机,但遇到了知识工程瓶颈。
3、二十世纪八十年代以来,被研究最多、应用最广的是"从样例中学习" (也就是广义的归纳学习) ,它涵盖了监督学习、无监督学习等,本书大部分内容均属此范畴
代表包括决策树(参见第 4 章)和基于逻辑的学习(参见第 15 章)。
4、二十世纪九十年代中期之前,“从样例中学习"的另一主流技术是基于神经网络的连接主义学习。
著名的 BP 算法(参见第 5 章)。
5、二十世纪九十年代中期"统计学习” (statistical learning) 闪亮登场并迅速占据主流舞台,代表性技术是支持向量机 (Support Vector Machine,简称SVM) (参见第 6 章)以及更一般的"核方法" (kernel methods)。
6、二十一世纪初,连接主义学习又卷土重来,掀起了以"深度学习"为名的热潮.所谓深度学习:狭义地说就是"很多层"的神经网络.在若干测试和竞赛上,尤其是涉及语音、图像等复杂对象的应用中,深度学习技术取得了优越性能。
深度学习模型拥有大量参数?若数据样本少,则很容易"过拟合"(参见第 2 章)。

习题研讨:

1.1 表1. 1 中若只包含编号为 1 和 4 的两个样例?试给出相应的版本空间。

编号色泽根蒂敲声好瓜
1青绿蜷缩浊响
4乌黑稍缩沉闷

答:假设空间共:3 * 3 * 3+1=28(种)

标号为好瓜-版本空间:2 * 2 * 2 - 1=7(种)
因为要减去三种属性值都为 * 的情况

青绿蜷缩浊响
青绿蜷缩*
青绿*浊响
青绿**
*蜷缩浊响
*蜷缩*
**浊响

1.2 与使用单个合取式来进行假设表示相比,使用"析合范式"将使得假设空间具有更强的表示能力.(析合范式即多个合取式)
例如:
在这里插入图片描述
多包含 k 个合取式的析合范式来表达表1. 1 西瓜分类问题的假设空间 , 试估算共有多少种可能的假设。

答:待写

1.3 若数据包含噪声,则假设空间中有可能不存在与所有训练样本都一致的假设在此情形下,试设计一种归纳偏好用于假设选择。
答:在训练过程中选择最匹配的那个假设。

1.5 试述机器学习能在互联网搜索的哪些环节起什么作用。
答:用户在使用浏览器时会输入关键字或图片,相应的浏览器给出相关的网页,这个过程涉及到关键字和网页的映射,可以使用机器学习来做。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值