《机器学习》（周志华）读书笔记（一）

最新推荐文章于 2023-03-28 16:35:46 发布

weixin_36413027

最新推荐文章于 2023-03-28 16:35:46 发布

阅读量200

点赞数

分类专栏：机器学习

本文链接：https://blog.csdn.net/weixin_36413027/article/details/95608137

版权

机器学习专栏收录该内容

3 篇文章 0 订阅

订阅专栏

一. 基本术语

数据集： 需要进行数学分析的数据集合
示例/样本： 数据集中，每条记录都是关于一个事件or一个对象的描述，这每条记录都被称为“示例or样本”
属性： 反应事件or对象在某方面的属性or性质的事项，就是属性。
属性值： 属性上的取值，即为“属性值”。
属性空间/样本空间/输入空间： 属性张成的空间。一个属性，就是一根坐标轴，就是一个维度。
特征向量： 由于空间中的每个点，对应一个坐标向量。相应的，一个示例/样本，也被称作一个“特征向量”
维数： 对于某一个属性空间而言，维数其实就是属性的数量。
标记： 关于示例的结果的信息。比如

二、模型评估与选择

1、经验误差与过拟合

“错误率”： 是指分类错误的样本数占样本总数的比例，即是m个样本中a个样本分类错误，错误率为E=a/m；
“精度”：1-E
“误差”： 学习器的真实输出与预测输出的差异，误差常分为 “训练误差”（训练集）和 “泛化误差” （新样本）。
过拟合： 学习能力“过强”。将训练集本身特性当作所有潜在样本的统一性质，使得泛化性能下降。
欠拟合：学习能力“过弱”。对训练集样本本身特性都未能学好。

2、评估方法

通过实验测试来对学习器的泛化误差进行评估并作出选择。需使用一个“测试集”来测试学习器对新样本的判别能力，然后其中的“测试误差”作为泛化误差的近似。特别注意测试集和训练集应该相互斥。

留出法：

将数据集D分为互斥的两个集，一个作为训练集S，一个作为测试集T，即D=S∪T，S∩T=空集，在S上训练出模型后，用T来评估测试误差，作为对泛化误差的估计。一般来说，将2/3~4/5的样本用于训练，剩余样本用于测试。

交叉验证法：

将数据集D分为k个大小相似的互斥子集，每个子集尽可能保持数据分布的一致性；然后每次用k-1个子集的并集作为训练集，剩下作为测试集，最终返回的是k个测试结果的均值。

自助法：

以自助采样法为基础，给定包含m个样本的数据集D，我们对它采样产生数据集D’：每次随机从D中挑选样本加入D’中，再将该样本放回D中；重复m次此操作，就得到了自助采样的结果。显然，D中有一部分样本会在 D’中多次出现，而另一部分样本不出现。可以做一个简单的估计，样本在 m 次采样中始终不被采到的概率是（1-1/m）^m，取极限为 1/e,得到约为0.368。没有在训练集中出现的样本用于测试，又称外包估计（out of bag estimate）

调参与最终模型：

在研究对比不同算法的泛化性能时，我们用测试集上的判别效果来估计模型在实际使用时的泛化能力，而把训练数据另外划分为训练集和验证集，基于验证集上的性能来进行模型选择和调参。

3.性能度量

对于二分类的问题，可将样例根据真实类别与学习器预测类别的组合划分为真正例（TP）、假正例（FP）、真反例（TN）、假反例（FN），则TP+FP+TN+FN=样例总数，分类结果的混淆矩阵如下图。
表2.1分类结果混淆矩阵

在这里插入图片描述

Spackman, 1989.与之前介绍的P-R曲线相似，我们根据学习器的预测结果对样例进行排序，按此顺序逐个把样本作为正例进行预测，每次计算出两个重要量的值，分别以它们为横、纵坐标作图，就得到了“ROC曲线”.与P-R曲线使用查准率、查全率为纵、横轴不同，ROC曲线的纵轴是“真正例率”(True Positive Rate，简称TPR)，横轴是“假正例率”(False PositiveRate，简称FPR)，两者分别定义为
在这里插入图片描述
从定义可知，AUC可通过对ROC曲线下各部分的面积求和而得.假定ROC曲线是由坐标为{(x1,y1),(x1,y2)…(xm,ym)}的点按序连接而形成(x1=0,xm=1)，则AUC可估算为

Lrank对应的是ROC曲线之上的面积，则有

代价敏感错误与代价曲线
在这里插入图片描述
“代价敏感”错误率

正例的概率代价：