【西瓜书】 绪论

本文介绍了机器学习的基本概念,包括数据集、示例、特征维度和标记空间。区分了分类与回归任务,以及监督与无监督学习的区别。重点讨论了泛化能力,强调模型在新样本上的适用性。此外,还提到了归纳偏好和版本空间,并引用奥卡姆剃须刀原则来指导模型选择。
摘要由CSDN通过智能技术生成
符号描述

1.D={x1,x2,…,xm} :m个示例的数据集,xi∈X,X为样本空间。
2.对于每个示例xi={xi1,xi2,…,xid},d表示维数。xij是指示例xi在第j维上的取值。
3.(xi,yi)表示第i个样例xi及其标记yi,其中yi1∈Y,Y表示标记空间(或输出空间)。

分类&回归

分类:预测的是离散值;
回归:预测的是连续值;

一般的,预测任务是希望建立一个从输入空间X到输出空间Y的映射f:X→Y。

监督&无监督

分类标准:训练数据是否拥有标记信息;
监督学习:有标记
        ~~~~~~~        代表:分类算法和回归算法模型
无监督学习:无标记
        ~~~~~~~        代表:聚类算法

泛化

机器学习的目标:使得学习的模型能够很好的使用于“新样本”。
泛化:学得的模型适用于新样本的能力就叫做泛化能力。具有泛化能力的模型能够更好的适用于整个样本空间。

假设

我们通常假设样本空间中全体样本服从一个未知的分布D,我们获得的每个样本是独立同分布的(independent and identically distributed 简称i.i.d.)。

一般的,我们获得的样本数量越多,我们获得的分布D的信息越多,我们更容易获得具有强泛化能力的学习模型。

归纳&演绎

归纳:特殊到一般,“ 泛化 ” 过程;
演绎:一般到特殊,” 特化 “ 过程;

版本空间

学习空间看作是在所有假设祖成的空间里进行搜索的过程,我们通常需要选择一种策略对假设空间搜索才能获得解。我们搜索的目标是找到于训练集匹配的假设。现实生活中我们通常面临巨大的假设空间,但是学习过程是基于有限样本进行的。因此可能会存在多个假设和训练集一致的情况(多解情况),即存在假设集合,我们称之为 版本空间。

归纳偏好

假设学习后产生两种假设,由于我们必须产生一个模型,因此,我们对于产生结果的选择就会产生偏好。而机器学习算法在学习过程中对某种假设的偏好,就叫做归纳偏好(或偏好)。
例如在图1.3里,存在多条曲线与有限样本训练集一致,算法对于其中一种的选择就叫做偏好。
请添加图片描述
任何机器学习算法都必须有其偏好,否则我们将会得到假设时而正确时而错误的结果,从而得不到确切的结果。

如何确立偏好

奥卡姆剃须刀:常用,自然科学的研究原则。即有多个假设与观察一致,则选择最简单的那个。

注意奥卡姆也不是完全可行,奥卡姆原则可能在有些情况下会失效,图1.3中的B线也可能会比A更贴合训练集;奥卡姆并非唯一可行,当奥卡姆原则无法使用时,我们也应当借助其他机制。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值