【吃瓜教程】机器学习读书笔记（1）

最新推荐文章于 2024-09-09 10:31:32 发布

kaiii918

最新推荐文章于 2024-09-09 10:31:32 发布

阅读量21

点赞数

文章标签：机器学习人工智能算法

本文链接：https://blog.csdn.net/qq_39373176/article/details/131861037

版权

本文介绍了机器学习的基本概念，包括从数据中学习模型，以及监督学习和无监督学习的任务类型。讨论了训练误差、泛化误差和过拟合、欠拟合的概念，提出了模型评估的方法如留出法、交叉验证和自助法。此外，文章还涵盖了性能度量，如错误率、精度、查准率、查全率和F1分数，以及如何通过P-R曲线比较学习器的性能。

摘要由CSDN通过智能技术生成

chap1 绪论

1.1 什么是机器学习？

能从数据中学习出规律的一类算法，在计算机上从数据产生模型。（本书用"模型"泛指从数据中学得的结果）

一个更形式化的定义：假设用P来评估计算机程序在某任务类T上的性能，若一个程序通过利用经验 E在T中任务上获得了性能改善，则我们就说关于 T和P,该程序对E进行了学习．

1.2 基本术语

假定我们收集了一批关于西瓜的数据 =意思是"取值为"

(色泽=青绿;根蒂=蜷缩;敲声=浊响)， (色泽=乌黑;根蒂:稍蜷;敲声=沉闷)， (色泽=浅自;根蒂=硬挺;敲声=清脆)

数据集。 data set：所有记录的集合
每一条记录为：一个实例（instance）或样本（sample）。
单个的特点为特征（feature）或属性（attribute）例如色泽或者敲声。属性的取值为属性值(attribute value)
属性空间 (attribute space) /样本空间 (sample space)/输入空间：属性张成的空间，例如我们把"色泽" “根蒂” "敲声"作为三个坐标轴，则它们张成一个用于描述西瓜的三维空间
特征向量(feature vector)：对于一条记录，如果在坐标轴上表示，每个西瓜都可以用坐标轴中的一个点表示，一个点也是一个向量
一个样本的特征数为：维数（dimensionality），该西瓜的例子维数为3[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-4uFMJCzy-1689948411963)(/Users/kai/Library/Application Support/typora-user-images/image-20230720223440123.png)]
学习/训练：从数据学得模型的过程
训练数据 training data 训练样本 training sample 训练集 training set（训练样本组成的集合）

如果希望学得一个能帮助我们判断没剖开的是不是“好瓜＂的模型仅有前面的示例数据显然是不够的要建立这样的关于“预测”(prediction)的模型，我们需获得训练样本的“结果“信息，例如＂（（色泽＝青绿；根蒂＝蜡缩敲声＝浊响），好瓜）

好瓜称为“标记 label
样例 example ：拥有标记信息的示例
标记空间/输出空间：(xi,yi) yi为实例xi的标记，Y为标记的集合，称为输出空间
预测值为离散值的学习任务为：分类（classification）。例如好瓜/坏瓜
- 只有两个类别的“二分类”(binary clasification)任务：正类positive class 和反类/负类 negative class
- 多个类别的“多分类”任务(multi-class classification)
预测值为连续值的学习任务为：回归（regression）。例如西瓜成熟度 0.9、0.88

学得模型后

使用其进行预测的过程称为"测试" (testing)
测试样本：被预测的样本例如在学得f 后，对测试例x，可得到其预测标记y =f(x).
聚类 clustering ：将训练集中的西瓜分组，每组称为一个簇 cluster；这些自动生成的簇可能对应一些潜在的概念划分，例如浅色瓜/深色瓜本地瓜/外地瓜。这些概念我们事先不知道，学习过程中使用的训练样本通常不拥有标记信息

根据训练数据是否拥有标记信息，学习任务分为：

监督学习 supervised learning ：分类和回归
无监督学习 unsupervised learning ：聚类
泛化 generalization ：学得模型适用于样本的能力

1.3 假设空间

归纳induction：从特殊到一般的泛化过程

演绎deduction：从一般到特殊的特化过程(unsupervised learning)

归纳学习 inductive learning

广义：从样例中学习
狭义：从训练数据中学得概念 concept ，即概念学习
- 布尔概念学习，0/1布尔值的目标概念的学习

编号	色泽	根蒂	敲声	好瓜
1	青绿	蜷缩	浊响	是
2	乌黑	蜷缩	浊响	是
3	青绿	硬挺	清脆	否
4	乌黑	稍蜷	沉闷	否

我们的学习目标为好瓜，由前三种因素确定，布尔表达式为 : 好瓜<->(色泽=?) ^ (根蒂=？) ^ (敲声=？)

任务：通过上表的训练集进行学习，确定好瓜

用空集表示概念不成立的假设

用通配符*表示可以取任何值

假设三种属性分别有3，2，2种可能取值，有36种假设空间，再加上一种极端情况，即不存在好瓜，则假设空间大小为4 * 3 * 3 + 1

有许多策略对这个假设空间进行搜索，例如自顶向下、自底向上

版本空间 version space：假设空间的最大子集，每个元素都不与假设空间冲突

1.4 归纳偏好

chap2 模型评估和选择

2.1 经验误差与过拟合

误差 error ：学习器的实际预测输出与样本的真实输出之间的差异

训练误差/经验误差：在训练集上的误差
泛化误差generalization error：学习器在所有新样本上的误差
测试误差：测试集上得到的误差

当学习器把训练集学得“太好”的时候，可能会将一些训练样本的自身特点当做了普遍特征；同时也有学习能力不足的情况，即训练集的基本特征都没有学习出来。

学习能力过强，以至于把训练样本所包含的不太一般的特性都学到了，称为：过拟合（overfitting）。
学习能太差，训练样本的一般性质尚未学好，称为：欠拟合（underfitting）。

对于NP问题或更复杂的问题，过拟合是无法彻底避免的

只要相信P!=NP，过拟合就无法避免

2.2 评估方法

通常我们采用测试集来测试学习器对新样本的判别能力，然后以测试误差作为泛化误差的近似。

同时保证测试集应尽可能与训练集互斥，例如，不能将练习题作为考试题。

我们对数据集D进行处理，从中产生训练集S与测试集T

训练集和测试集的划分方法

2.2.1 留出法

将数据集D划分为两个互斥的集合，一个作为训练集S，一个作为测试集T，满足D=S∪T且S∩T=∅

需要注意的是：

训练/测试集的划分要尽可能保持数据分布的一致性，以避免由于分布的差异引入额外的偏差，常见的做法是采取分层抽样。
同时，由于划分的随机性，单次的留出法结果往往不够稳定，一般要采用若干次随机划分，重复实验取平均值的做法。
常见的划分：大约2/3-4/5的样本用作训练，剩下的用作测试

2.2.2 交叉验证法

步骤：

将数据集D划分为k个大小相同的互斥子集，满足D=D1∪D2∪…∪Dk，Di∩Dj=∅（i≠j），同样地尽可能保持数据分布的一致性，即采用分层抽样的方法获得这些子集。
每次用k-1个子集的并集作为训练集，余下的那个作为测试集
这样就可以得到k组测试集，从而进行k次训练和测试，最终返回的是这k个测试结果的平均值

该方法的评估结果很大程度上取决于k的取值，通常也叫做 k折交叉验证 k-fold cross validation

k最常用的取值是10，此时为10 折交叉验证

与留出法类似，将数据集D划分为K个子集的过程具有随机性，因此K折交叉验证通常也要重复p次，称为p次k折交叉验证，常见的是10次10折交叉验证，即进行了100次训练/测试。特殊地，当划分的k个子集的每个子集中只有一个样本时，称为“留一法”，显然，留一法的评估结果比较准确，但对计算机的消耗也是巨大的。

2.2.3 自助法 bootstrapping

自助法的基本思想是：给定包含m个样本的数据集D，每次随机从D 中挑选一个样本，将其拷贝放入D’，然后再将该样本放回初始数据集D 中，使得该样本在下次采样时仍有可能被采到。重复执行m 次，就可以得到了包含m个样本的数据集D’。

可以得知在m次采样中，样本始终不被采到的概率取极限为：
$\lim_{x \to \infty}(1-1/m)^m \to \frac{1}{e} \approx 0.368$
即通过自助采样，D约有36.8%的样本未出现在D’中，于是我们将D’作为训练集 D\D’ 作为测试集。这样我们仍有1/3的数据不在训练集中，可以用作测试。这样的测试结果称为包外估计