【西瓜书第一章第二章】知识点总结——《机器学习》周志华著

本文详细介绍了机器学习的基础概念,包括模型的泛化能力、模型评估方法如留出法、交叉验证和自助法,以及性能度量标准如错误率、查准率、查全率、F1分数和ROC曲线。同时,讨论了过拟合与欠拟合,以及在模型选择中的调参策略。
摘要由CSDN通过智能技术生成

第一章 绪论

第一章主要内容

1.机器学习的主要内容

机器学习所研究的主要内容是关于在计算机上从数据中产生“模型”的算法,即“学习算法”(Learning algorithm)

2.基本术语

在这里插入图片描述
 数据集:这些记录的集合成为数据集

 示例:数据集中每条记录是关于一个事件或对象的描述,称为“示例”或“样本”

 属性:反映事件或对象在某方面的表现或性质的事项,例如:“色泽”、“根蒂”等

 属性值:属性上的取值,例如“青绿”、“蜷缩”等

 特征空间:例如把“色泽”、“根蒂”、“敲声”作为三个坐标轴,就会形成一个用于描述西瓜的三维空间,每个西瓜都可在这个空间中找到自己的坐标位置,空间中的每个点就对应一个坐标向量,因此可以把一个实例称为一个“特征向量”(数据向量化是机器学习的重要步骤)

 维数:样本空间D中包含了m个示例,每个示例中是d维的样本空间,d称为维数。

3.机器学习分类

 监督学习:样本有标记(如是否为好瓜)
欲预测的是离散值,此类学习任务称为“分类”
欲预测的是连续值,此类学习任务称为“回归”

 无监督学习:样本无标记
聚类是无监督学习的典型代表

4.模型的泛化能力

 泛化能力是指学得模型适用于新样本的能力,能够反映出样本空间特性的训练集越有可能经过学习得到具有强泛化能力的模型。一般而言,训练样本越多,我们得到的关于未知分布的信息就越多,这样就越有可能通过学习获得具有强泛化能力的模型。

 归纳和演绎是科学推理的两大基本手段。前者从特殊到一般,从具体的事实归结出规律;后者则是一般到特殊,由基础原理推导出具体情况。“从样例中学习”的机器学习是一种归纳学习。

第二章 模型的评估与选择

在这里插入图片描述
在这里插入图片描述

1.经验误差与过拟合

训练误差(training error)即经验误差(empirical error):学习器在训练集上的误差。
泛化误差(generalization error):学习器在新样本上的误差。
过拟合(over fitting):把训练样本的一些特点当作所有潜在样本的一般性质,导致泛化能力下降。
欠拟合(under fitting):训练样本的一般性质尚未学好。

2.评估方法

2.1留出法(hold-our)

留出法直接将数据集D划分为两个互斥的集合,其中一个集合作为训练集S,另一个作为测试集T。

     D=S∪T,  S∩T=∅

(训练集和测试机应尽量保证数据分布的一致性,避免因数据划分过程引入的额外偏差而对最终结果产生影响。)

2.2交叉验证法(cross validation)

先将数据集划分为k个大小相似的互斥子集,每个子集都尽可能保持数据分布的一致性,即从D中通过分层采样得到。然后,每次用k - 1 个自己的并集作为训练集S,剩下的那个作为测试集,这样就能获得 k组训练集/测试集,从而可以进行k轮训练和测试,最终返回的结果是k个测试结果的均值。

(显然,交叉验证的结果的稳定性和保真性很大程度上取决于k的大小。)

2.3自助法(bootstrapping)

自助法以自助采样(有放回采样)为基础。给定m个样本构成数据集D,对其采样得到数据集D’ :每次随机从D中挑选一个样本,将其拷贝放入D’,然后再将该样本放回初始数据集中,使得该样本在下次采样的时候仍有可能被采到;重复执行m次,得到有m个样本的D’。
显然,D中的有一部分样本会在D’中多次出现,另一部分样本不会出现。
样本在m次采样中始终不被采到的概率为
( 1 − 1 / m ) m (1-1/m)^m (1

1. 什么是泛化能力?泛化能力和过拟合之间有什么关系? 泛化能力是指模型在新的、未见过的数据上的表现能力。模型的泛化能力与其对训练数据的拟合程度有关,通常来说,过拟合的模型泛化能力较差。 2. 什么是交叉验证?交叉验证的作用是什么? 交叉验证是一种通过将数据集分成若干个子集来进行模型评估的方法。具体地,将数据集分成k个子集,每个子集都轮流作为测试集,其余子集作为训练集,重复k次,最终得到k个模型的评估结果的平均值。交叉验证的作用是提高模型评估的可靠性和泛化能力。 3. 留出法、k折交叉验证和留一法的区别是什么?它们各自适用于什么情况? 留出法是将数据集分成两部分,一部分作为训练集,另一部分作为测试集。留出法适用于数据集较大的情况。 k折交叉验证是将数据集分成k个子集,每个子集都轮流作为测试集,其余子集作为训练集,重复k次,最终得到k个模型的评估结果的平均值。k折交叉验证适用于数据集较小的情况。 留一法是k折交叉验证的一种特殊情况,即将数据集分成n个子集,每个子集都作为测试集,其余子集作为训练集,重复n次。留一法适用于数据集较小且样本数较少的情况。 4. 为什么要对数据进行预处理?数据预处理的方法有哪些? 数据预处理可以提高模型的表现,并且可以减少过拟合的风险。数据预处理的方法包括:标准化、归一化、缺失值填充、特征选择、特征降维等。 5. 什么是特征选择?特征选择的方法有哪些? 特征选择是指从所有特征中选择出对模型预测结果有重要贡献的特征。特征选择的方法包括:过滤式方法、包裹式方法和嵌入式方法。其中,过滤式方法是基于特征间的关系进行特征选择,包裹式方法是基于模型的性能进行特征选择,嵌入式方法是将特征选择嵌入到模型训练中。
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值