西瓜书#机器学习学习笔记(小白都能看懂的机器学习教程）（格式调整中）

小知识猿

已于 2024-06-20 02:16:46 修改

阅读量937

点赞数 12

文章标签：机器学习学习笔记

于 2024-06-20 02:12:52 首次发布

本文链接：https://blog.csdn.net/m0_67466450/article/details/139816762

版权

第一章绪论

什么是机器学习？

机器学习是这样一门学科，它致力于研究如何通过计算的手段，利用经验来改善系统自身的性能，在计算机系统中，“经验”通常以“数据”形式存在，因此，机器学习所研究的主要内容，是关于在计算机上从数据中产生“模型”(model)的算法，即“学习算法”(learning algorithm)。有了学习算法，我们把经验数据提供给它，它就能基于这些数据产生模型；在面对新的情况时（例如看到一个没剖开的西瓜），模型会给我们提供相应的判断（例如好瓜）。

基本术语：（不懂得可以上原书翻或者复制一下去问问chatgpt或者文心一言）

样本、样本空间、数据集、特征、属性值、属性空间、特征向量、学习、学习器、训练集、标记（label）、标记空间、分类、回归、二分类、多分类、测试、聚类、监督学习、无监督学习、泛化能力、假设、假设空间、版本空间、归纳偏好、NFL定理（没有免费的午餐定理）

第一章模型评估与选择

在现实中如何进行模型评估与选择呢？

1️⃣留出法

“留出法”(hold-out)直接将数据集D划分为两个互斥的集合，其中一个集合作为训练集S，另一个作为测试集T，即D=S∪T,S∩T=∅。在S上训练出模型后，用T来评估其测试误差，作为对泛化误差的估计。

如果从采样(sampling)的角度来看待数据集的划分过程，则保留类别比例的采样方式通常称为“分层采样”(stratified sampling)。

单次使用留出法得到的估计结果往往不够稳定可靠，在使用留出法时，一般要采用若干次随机划分、重复进行实验评估后取平均值作为留出法的评估结果。例如进行100次随机划分，每次产生一个训练/测试集用于实验评估，100次后就得到100个结果，而留出法返回的则是这100个结果的平均。

2️⃣交叉验证法（k倍交叉验证）

“交叉验证法”(cross validation)先将数据集D划分为k个大小相似的互斥子集，即D=D1∪D2∪...∪Dk,Di∩Dj=∅(i≠j)。每个子集Di都尽可能保持数据分布的一致性，即从D中通过分层采样得到。然后，每次用k-1个子集的并集作为训练集，余下的那个子集作为测试集；这样就可获得k组训练/测试集，从而可进行k次训练和测试，最终返回的是这k个测试结果的均值。显然，交叉验证法评估结果的稳定性和保真性在很大程度上取决于k的取值，为强调这一点，通常把交叉验证法称为“k折交叉验证”(k-fold cross validation)。k最常用的取值是10，此时称为10折交叉验证；其他常用的k值有5、20等。

假定数据集D中包含m个样本，若令k=m，则得到了交叉验证法的一个特例：留一法（Leave-One-Out，简称LOO）。显然，留一法不受随机样本划分方式的影响，因为m个样本只有唯一的方式划分为m个子集――每个子集包含一个样本；留一法使用的训练集与初始数据集相比只少了一个样本，这就使得在绝大多数情况下，留一法中被实际评估的模型与期望评估的用D训练出的模型很相似。因此，留一法的评估结果往往被认为比较准确。然而，留一法也有其缺陷：在数据集比较大时，训练m个模型的计算开销可能是难以忍受的（例如数据集包含1百万个样本，则需训练1百万个模型），而这还是在未考虑算法调参的情况下。另外，留一法的估计结果也未必永远比其他评估方法准确；“没有免费的午餐”定理对实验评估方法同样适用。

3️⃣自助法

“自助法”(bootstrapping)是一个比较好的解决方案，它直接以自助采样法(bootstrap sampling)为基础[Efron and Tibshirani,1993].给定包含m个样本的数据集D，我们对它进行采样产生数据集D′：每次随机从D中挑选一个样本，将其拷贝放入D′，然后再将该样本放回初始数据集D中，使得该样本在下次采样时仍有可能被采到；这个过程重复执行m次后，我们就得到了包含m个样本的数据集D′，这就是自助采样的结果。显然，D中有一部分样本会在D′中多次出现，而另一部分样本不出现。

即通过自助采样，初始数据集D中约有36.8%的样本未出现在采样数据集D中。于是我们可将D′用作训练集，D\D′用作测试集；这样，实际评估的模型与期望评估的模型都使用m个训练样本，而我们仍有数据总量约1/3的、没在训练集中出现的样本用于测试。这样的测试结果，亦称“包外估计”(out-of-bag estimate)。

对学习器的泛化性能进行评估，不仅需要有效可行的实验估计方法，还需要有衡量模型泛化能力的评价标准，这就是性能度量(performance measure)。

错误率和精度，这是分类任务中最常用的两种性能度量，既适用于二分类任务，也适用于多分类任务。错误率是分类错误的样本数占样本总数的比例，精度则是分类正确的样本数占样本总数的比例。

真正例(True Positive,TP)定义:真实情况是正例，且模型预测结果也是正例的样本数量

假正例(False Positive,FP)定义:真实情况是反例，但模型预测结果却是正例的样本数量

假反例(False Negative,FN):定义:真实情况是正例，但模型预测结果却是反例的样本数量

真反例(True Negative,TN)定义:直实情况是反例，且模型预测结果也是反例的样本数量

查准率和查全率是一对矛盾的度量。一般来说，查准率高时，查全率往往偏低；而查全率高时，查准率往往偏低。通常只有在一些简单任务中，才可能使查全率和查准率都很高。以信息检索应用为例，逐条向用户反馈其可能感兴趣的信息，即可计算出查全率、查准率。亦称“PR曲线”或“PR图”。

P-R图直观地显示出学习器在样本总体上的查全率、查准率。在进行比较时，若一个学习器的P-R曲线被另一个学习器的曲线完全“包住”，则可断言后者的性能优于前者，然而，在很多情形下，没完全包住，这时一个比较合理的判据是比较P-R曲线下面积的大小，它在一定程度上表征了学习器在查准率和查全率上取得相对“双高”的比例。但这个值不太容易估算，因此，人们设计了一些综合考虑查准率、查全率的性能度量。“平衡点”（Break-Even Point，简称BEP）就是这样一个度量，它是“查准率=查全率”时的取值。

但BEP还是过于简化了些，更常用的是F1度量：

在一些应用中，对查准率和查全率的重视程度有所不同。例如在商品推荐系统中，为了尽可能少打扰用户，更希望推荐内容确是用户感兴趣的，此时查准率更重要；而在逃犯信息检索系统中，更希望尽可能少漏掉逃犯，此时查全率更重要。F1度量的一般形式――Fβ，能让我们表达出对查准率/查全率的不同偏好，它定义为

很多学习器是为测试样本产生一个实值或概率预测，然后将这个预测值与一个分类阈值(threshold)进行比较，若大于阈值则分为正类，否则为反类。这个实值或概率预测结果的好坏，直接决定了学习器的泛化能力。实际上，根据这个实值或概率预测结果，我们可将测试样本进行排序，“最可能”是正例的排在最前面，“最不可能”是正例的排在最后面。这样，分类过程就相当于在这个排序中以某个“截断点”(cut point)将样本分为两部分，前一部分判作正例，后一部分则判作反例。

与2.3.2节中介绍的P-R曲线相似，我们根据学习器的预测结果对样例进行排序，按此顺序逐个把样本作为正例进行预测，每次计算出两个重要量的值，分别以它们为横、纵坐标作图，就得到了“ROC曲线”。与P-R曲线使用查准率、查全率为纵、横轴不同，ROC曲线的纵轴是“真正例率”（True Positive Rate，简称TPR），横轴是“假正例率”（False Positive Rate，简称FPR），基于表2.1中的符号，两者分别定义为

现实任务中通常是利用有限个测试样例来绘制ROC图，此时仅能获得有限个（真正例率，假正例率）坐标对，无法产生图2.4(a)中的光滑ROC曲线，只能绘制出如图2.4(b)所示的近似ROC曲线。绘图过程很简单：给定m+个正例和m-个反例，根据学习器预测结果对样例进行排序，然后把分类阈值设为最大，即把所有样例均预测为反例，此时真正例率和假正例率均为0，在坐标(0,0)处标记一个点。然后，将分类阈值依次设为每个样例的预测值，即依次将每个样例划分为正例。

进行学习器的比较时，与P-R图相似，若一个学习器的ROC曲线被另一个学习器的曲线完全“包住”，则可断言后者的性能优于前者；若两个学习器的ROC曲线发生交叉，则难以一般性地断言两者孰优孰劣。此时如果一定要进行比较，则较为合理的判据是比较ROC曲线下的面积，即AUC(Area UnderROC Curve)，如图2.4所示。从定义可知，AUC可通过对ROC曲线下各部分的面积求和而得。假定ROC曲线是由坐标为{(x1,y1)，(x2,y2)，...，(xm,ym)}的点按序连接而形成(x1=0,xm=1)，参见图2.4(b)，则AUC可估算为

形式化地看，AUC考虑的是样本预测的排序质量，因此它与排序误差有紧密联系。给定m+个正例和m-个反例，令D+和D-分别表示正、反例集合，则排序“损失”(loss)定义为

即考虑每一对正、反例，若正例的预测值小于反例，则记一个“罚分”，若相等，则记0.5个“罚分”。容易看出，[插图]rank对应的是ROC曲线之上的面积：若一个正例在ROC曲线上对应标记点的坐标为(x,y)，则x恰是排序在其之前的反例所占的比例，即假正例率。因此有

（这里可以这么理解:AUC就是ROC区域以下的面积，如果a算法将所有正例都排在了负例前面，面积就为一;但是这样完美的算法是很难得到的，一般算法总会将一些负例的预测分大于一些正例,面积就会小于一，这小的部分，我们称之为“排序损失”，可用如图所示的公式计算这部分面积）

为权衡不同类型错误所造成的不同损失，可为错误赋予“非均等代价”(unequal cost)。以二分类任务为例，我们可根据任务的领域知识设定一个“代价矩阵”(cost matrix)，如表2.2所示，其中costij表示将第i类样本预测为第j类样本的代价。一般来说，costij=0；若将第0类判别为第1类所造成的损失更则cost01＞cost10；损失程度相差越大，cost01与cost10值的差别越大。

以二分类任务为例，我们可根据任务的领域知识设定一个“代价矩阵”(cost matrix)，如表2.2所示，其中costij表示将第i类样本预测为第j类样本的代价。一般来说，costij=0；若将第0类判别为第1类所造成的损失更则cost01＞cost10；损失程度相差越大，cost01与cost10值的差别越大。

在非均等代价下，ROC曲线不能直接反映出学习器的期望总体代价，而“代价曲线”(cost curve)则可达到该目的。代价曲线图的横轴是取值为[0,1]的正例概率代价

（无论代价敏感还是不敏感，正例概率代价在本质上表示的都是样例集中正例的占比，有代价敏感相当于是将对应的正例或者负例复制了cost份）

其中FPR是式(2.19)定义的假正例率，FNR=1-TPR是假反例率。代价曲线的绘制很简单：ROC曲线上每一点对应了代价平面上的一条线段，设ROC曲线上点的坐标为(FPR,TPR)，则可相应计算出FNR，然后在代价平面上绘制一条从(0,FPR)到(1,FNR)的线段，线段下的面积即表示了该条件下的期望总体代价；如此将ROC曲线上的每个点转化为代价平面上的一条线段，然后取所有线段的下界，围成的面积即为在所有条件下学习器的期望总体代价，如图2.5所示。

（通过取所有线段的下界，我们找到了在所有可能的分类阈值下，分类器产生的最低期望总体代价，这个最低期望总体代价所对应的面积就是代价曲线的面积。）

……………………………………………………施工中……………………………………………………

小知识猿

关注

12
点赞
踩
18

收藏

觉得还不错? 一键收藏
打赏
1
评论
西瓜书#机器学习学习笔记(小白都能看懂的机器学习教程）（格式调整中）

第一章绪论什么是机器学习？机器学习是这样一门学科，它致力于研究如何通过计算的手段，利用经验来改善系统自身的性能，在计算机系统中，“经验”通常以“数据”形式存在，因此，机器学习所研究的主要内容，是关于在计算机上从数据中产生“模型”(model)的算法，即“学习算法”(learning algorithm)。有了学习算法，我们把经验数据提供给它，它就能基于这些数据产生模型；在面对新的情况时（例如看到一个没剖开的西瓜），模型会给我们提供相应的判断（例如好瓜）。基本术语：（不懂得可以上原书翻或者复制一
复制链接

扫一扫