[机器学习] 学习笔记一

最新推荐文章于 2022-11-15 21:33:57 发布

heartless_killer

最新推荐文章于 2022-11-15 21:33:57 发布

阅读量339

点赞数

本文链接：https://blog.csdn.net/heartless_killer/article/details/104796015

版权

基本概念

在学习机器学习之前，首先要搞清楚它的定义、研究内容等等基本概念。

定义：机器学习是致力于通过计算的手段，利用数据来改善系统自身的性能的学科

研究内容：从数据中产生“模型”的算法（即学习算法）

如何运用：有了学习算法，将经验数据传给学习算法后，产生相应模型；在面对新情况时，模型将会给出相应的判断。

举个日常例子理解机器学习整个过程，当我们有了一些西瓜（训练数据集），且知道哪些是好瓜哪些是坏瓜。这时候我们需要剖开一个个西瓜，看看哪些好瓜/坏瓜，然后总结经验（学习并产生模型）；当下次看到一个没剖开的瓜时，通过经验判断它是哪种瓜（运用模型去判断）。

基础术语

要进行机器学习，先要有数据。在机器学习，对数据的描述都有特定的术语。通过下面的例子来讲解机器学习中的基础术语。

假定我们收集了一批关于西瓜的数据，例如(色泽=青绿;根蒂=蜷缩;敲声=浊响)， (色泽=乌黑;根蒂=稍蜷;敲声=沉闷)， (色泽=浅自;根蒂=硬挺;敲声=清脆)，……，每对括号内是一条记录，"="，意思是"取值为"

属性：反映事件或对象在某方面的表现或性质的事项。例如每条记录中的“色泽”、“根蒂”、“敲声”就是西瓜的属性
属性空间：属性张成的空间。例如我们把"色泽" “根蒂” "敲声"作为三个坐标轴，则它们张成一个用于描述西瓜的三维空间就是属性空间
特征向量：每个西瓜都可在这个空间中找到自己的坐标位置。由于空间中的每个点对应一个坐标向量，因此我们也把这个坐标向量称为一个特征向量。

三者的关系总结：将每个属性作为一个坐标轴，多个属性就多个坐标轴，从而形成一个描述物体的属性空间。此空间中的每个样本对应一个点，每个点都有一个坐标向量，把这个坐标向量称为特征向量。

训练集和测试集

：训练集（trainning set）：所有训练样本的集合为，[特殊]。
测试集（test set）：所有测试样本的集合为：，[一般]。

根据预测结果的类型，可以将机器学习任务分为二类。

分类：预测结果的类型是离散值，例如"好瓜"，“坏瓜”；
回归：预测结果的类型是连续值，例如西瓜的成熟度0.37、0.95。

根据训练数据是否拥有标记信息，学习任务也可大致划分为两大类。

监督学习(supervised learning)：训练数据有标记信息，其中分类与回归属于监督学习。
无监督学习(unsupervised learning)：训练数据没有标记信息，代表有聚类。

假设空间与版本空间

假设空间：所有假设构成的集合。所有可能的集合

版本空间：只保留了假设空间中与训练数据集中正例一致的假设，由这些正确的假设构成的集合成为版本空间（简单来说，版本空间就是正例的泛化）。训练集中的可能？假设空间的子集，是针对数据集来说的。

学习过程：所有假设中组成的空间中搜索的过程，目标是找到与训练集匹配的假设

归纳偏好

从假设空间到版本空间是一个归纳过程（即从特殊到一般的过程）。

归纳偏好(简称"偏好")：机器学习算法在学习过程中对某种类型假设的偏好。

任何一个有效的机器学习算法必有其归纳偏好，否则它将被假设空间中看似在训练集上"等效"的假设所迷惑，无法产生确定的学习结果。如果没有偏好，刚才那个例子就没有确定的答案了。这样的学习结果显得没有意义。

最后**，算法的归纳偏好是否与问题本身匹配**，大多数时候直接决定了算法能否取得好的性能。

就是说：论证一个算法好不好，是在问题的基础上论证的。一个算法可能只是对某些问题来说好，某些不好

模型的评估与选择

误差

我们将学习器对样本的实际预测结果与样本的真实值之间的差异成为：误差（error）。定义：

在训练集上的误差称为训练误差（training error）或经验误差（empirical error）。
在测试集上的误差称为测试误差（test error）。
学习器在所有新样本上的误差称为泛化误差（generalization error）。

我们希望得到的是在新样本上表现得很好的学习器，即泛化误差小的学习器。因此，我们应该让学习器尽可能地从训练集中学出普适性的“一般特征”，这样在遇到新样本时才能做出正确的判别。

过拟合和欠拟合

泛化 (generalization)
指的是模型依据训练时采用的数据，针对以前未见过的新数据做出正确预测的能力

当学习器把训练集学得“太好”的时候，即把一些训练样本的自身特点当做了普遍特征；同时也有学习能力不足的情况，即训练集的基本特征都没有学习出来。我们定义
学习能力过强，以至于把训练样本所包含的不太一般的特性都学到了，称为：过拟合（overfitting）。
学习能太差，训练样本的一般性质尚未学好，称为：欠拟合（underfitting）。

可以得知：在过拟合问题中，训练误差十分小，但测试误差教大；在欠拟合问题中，训练误差和测试误差都比较大。目前，欠拟合问题比较容易克服，例如增加迭代次数等，但过拟合问题还没有十分好的解决方案，过拟合是机器学习面临的关键障碍。

评估方法

在现实任务中，我们往往有多种算法可供选择，那么我们应该选择哪一个算法才是最适合的呢？如上所述，我们希望得到的是泛化误差小的学习器，理想的解决方案是对模型的泛化误差进行评估，然后选择泛化误差最小的那个学习器。但是，泛化误差指的是模型在所有新样本上的适用能力，我们无法直接获得泛化误差。

因此，通常我们采用一个“测试集”来测试学习器对新样本的判别能力，然后以“测试集”上的“测试误差”作为“泛化误差”的近似。显然：我们选取的测试集应尽可能与训练集互斥，下面用一个小故事来解释why：

假设老师出了10 道习题供同学们练习，考试时老师又用同样的这10道题作为试题，可能有的童鞋只会做这10 道题却能得高分，很明显：这个考试成绩并不能有效地反映出真实水平。回到我们的问题上来，我们希望得到泛化性能好的模型，好比希望同学们课程学得好并获得了对所学知识"举一反三"的能力；训练样本相当于给同学们练习的习题，测试过程则相当于考试。显然，若测试样本被用作训练了，则得到的将是过于"乐观"的估计结果。

训练集与测试集的划分方法

原则：测试集和训练集应该互斥

如上所述：我们希望用一个“测试集”的“测试误差”来作为“泛化误差”的近似，因此我们需要对初始数据集进行有效划分，划分出互斥的“训练集”和“测试集”。下面介绍几种常用的划分方法：

留出法

将数据集D划分为两个互斥的集合，一个作为训练集S，一个作为测试集T，满足D=S∪T且S∩T=∅，常见的划分为：大约2/3-4/5的样本用作训练，剩下的用作测试。需要注意的是：训练/测试集的划分要尽可能保持数据分布的一致性，以避免由于分布的差异引入额外的偏差，常见的做法是采取分层抽样。同时，由于划分的随机性，单次的留出法结果往往不够稳定，一般要采用若干次随机划分，重复实验取平均值的做法。

保持数据分布的一致性（例如分层抽样）
多次重复划分（例如：100次随机划分）
测试集不大不小（例如1/5-1/3）

在这里插入图片描述

交叉验证法

即满足测试集训练集互斥，使得测试集不会被浪费。

将数据集D划分为k个大小相同的互斥子集，满足D=D1∪D2∪…∪Dk，Di∩Dj=∅（i≠j），同样地尽可能保持数据分布的一致性，即采用分层抽样的方法获得这些子集。交叉验证法的思想是：每次用k-1个子集的并集作为训练集，余下的那个子集作为测试集，这样就有K种训练集/测试集划分的情况，从而可进行k次训练和测试，最终返回k次测试结果的均值。交叉验证法也称“k折交叉验证”，k最常用的取值是10.。
在这里插入图片描述

与留出法类似，将数据集D划分为K个子集的过程具有随机性，因此K折交叉验证通常也要重复p次，称为p次k折交叉验证，常见的是10次10折交叉验证，即进行了100次训练/测试。特殊地当划分的k个子集的每个子集中只有一个样本时，称为“留一法”，显然，留一法的评估结果比较准确，但对计算机的消耗也是巨大的。

自助法

我们希望评估的是用整个D训练出的模型。但在留出法和交叉验证法中，由于保留了一部分样本用于测试，因此实际评估的模型所使用的训练集比D小，这必然会引入一些因训练样本规模不同而导致的估计偏差。留一法受训练样本规模变化的影响较小，但计算复杂度又太高了。“自助法”正是解决了这样的问题。

训练集与原样本集同规模
数据分布有所改变

自助法的基本思想是：给定包含m个样本的数据集D，每次随机从D 中挑选一个样本，将其拷贝放入D’，然后再将该样本放回初始数据集D 中，使得该样本在下次采样时仍有可能被采到。重复执行m 次，就可以得到了包含m个样本的数据集D’。可以得知在m次采样中，样本始终不被采到的概率取极限为：

在这里插入图片描述

这样，通过自助采样，初始样本集D中大约有36.8%的样本没有出现在D’中，于是可以将D’作为训练集，D-D’作为测试集。自助法在数据集较小，难以有效划分训练集/测试集时很有用，但由于自助法产生的数据集（随机抽样）改变了初始数据集的分布，因此引入了估计偏差。在初始数据集足够时，留出法和交叉验证法更加常用。

调参

大多数学习算法都有些参数(parameter) 需要设定，参数配置不同，学得模型的性能往往有显著差别，这就是通常所说的"参数调节"或简称"调参" (parameter tuning)。

学习算法的很多参数是在实数范围内取值，因此，对每种参数取值都训练出模型来是不可行的。常用的做法是：对每个参数选定一个范围和步长λ，这样使得学习的过程变得可行。例如：假定算法有3 个参数，每个参数仅考虑5 个候选值，这样对每一组训练/测试集就有555= 125 个模型需考察，由此可见：拿下一个参数（即经验值）对于算法人员来说是有多么的happy。

最后需要注意的是：当选定好模型和调参完成后，我们需要使用初始的数据集D重新训练模型，即让最初划分出来用于评估的测试集也被模型学习，增强模型的学习效果。用上面考试的例子来比喻：就像高中时大家每次考试完，要将考卷的题目消化掉（大多数题目都还是之前没有见过的吧？），这样即使考差了也能开心的玩耍了~。在这里插入图片描述

heartless_killer

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
[机器学习] 学习笔记一

基本概念在学习机器学习之前，首先要搞清楚它的定义、研究内容等等基本概念。定义：机器学习是致力于通过计算的手段，利用数据来改善系统自身的性能的学科研究内容：从数据中产生“模型”的算法（即学习算法）如何运用：有了学习算法，将经验数据传给学习算法后，产生相应模型；在面对新情况时，模型将会给出相应的判断。举个日常例子理解机器学习整个过程，当我们有了一些西瓜（训练数据集），且知道哪些是好瓜哪些是坏...
复制链接

扫一扫