6 机器学习基础

最新推荐文章于 2022-03-16 14:52:53 发布

流动的风与雪

最新推荐文章于 2022-03-16 14:52:53 发布

阅读量2.5k

点赞数 1

分类专栏： NLP 文章标签： NLP 机器学习自然语言处理

本文链接：https://blog.csdn.net/qq_40061206/article/details/111034976

版权

NLP 专栏收录该内容

6 篇文章 5 订阅

订阅专栏

文章目录

1 混淆矩阵等概念
2 机器学习
3 数据分析
4 常用的定理
5 最大似然估计
6 线性回归（待补充的）

1 混淆矩阵等概念

1.1 混淆矩阵

假设现在有10000个人，分为四组，如下：
在这里插入图片描述
下面是按照上面的分组，相当于混淆矩阵的一个例子：

下面是正儿八经的混淆矩阵：

下面又是一个例子：

1.2 准确率

准确率(Accuracy) 是所有的预测正确(正类负类)的占总的比例：
在这里插入图片描述

1.3 精度

精度(precision，或者PPV，positive predictive value) ，查准率。即正确预测为正的占全部预测为正的比例：
在这里插入图片描述

1.4 召回率

召回(recall，或者敏感度，sensitivity，真阳性率，TPR，True Positive Rate)，即正确预测为正的占全部实际为正的比例：
在这里插入图片描述

1.5 F1

F1值（H-mean值）， F1值为精度P与召回率R的算数平均数除以几何平均数，且越大越好。
在这里插入图片描述
注意：精度P与召回率R反比。理由是这样的：根据上面的公式可以看出，P与R的不同为分母的FP与FN。而FP与FN均为判断与事实不符的，FP指假阳性，FN指假阴性，这两个值一个增加则另一个减少。不妨设FP增加，则FN减少，则P减小且R增大，因此二者确实是反比关系。

2 机器学习

假设用P来评估计算机程序在某任务类T上的性能，若一个程序通过利用经验E在T中的任务上获得了性能改善，即P增加了，则我们就说关于T和P，该程序对E进行了学习。

机器学习致力于研究如何通过计算的手段，利用经验来改善系统自身的性能，从而在计算机上根据数据产生一个“模型”，用于对新的情况给出判断。
在这里插入图片描述
因为现实世界的问题都比较复杂，很难通过规则来手工实现，如下面的数字识别与声音识别：

所以需要机器学习。

2.1 机器学习 ≈ 构建一个映射函数

在这里插入图片描述

2.2 机器学习概念

机器学习：通过算法使得机器能从大量数据中学习规律从而对新的样本做决策。

规律：决策/预测函数，如下：
在这里插入图片描述

2.3 一些术语

2.31 数据集

数据集分为训练集与测试集，两个集合都由一个个样本或称为数据组成，其中数据由特征与标签组成，如下：
在这里插入图片描述

2.32 泛化能力

机器学习的目标是使得学到的模型能很好的适用于“新样本”，而不仅仅是训练集合，称模型适用于新样本的能力为泛化(generalization)能力。

通常假设样本空间中的样本服从一个未知分布，样本从这个分布中独立获得，即“独立同分布” 。一般而言训练样本越多越有可能通过学习获得强泛化能力的模型。

2.33 机器学习的三要素

1、模型。
在这里插入图片描述
2、学习准则。包括错误率、误差、损失函数、期望风险等。

错误率：错分样本的占比。

误差：样本真实输出与预测输出之间的差异，包括：

训练误差：训练集上；
测试误差：测试集上；
泛化误差：除训练集外所有样本。

损失函数：L(f(x), y)为损失函数，f(x)为模型输出值，y为标签值，若损失函数值为0，则模型已经训练地很好了，但是显然现实情况很难达到完美。介绍两种损失函数，如下：

0-1损失函数
平方损失函数

下图中：R(f)为期望风险(Risk)；E(x, y)为期望；L(f(x), y)为损失函数。下式指的具体是啥，抱歉我也不懂…

不过由于期望风险是未知的，所以通过经验风险当作期望风险的近似值。如，在训练数据：𝒟 = {x⁽ⁿ⁾, y⁽ⁿ⁾, 𝑖 ∈ [1, 𝑁]}，则期望风险（下面的emp为experience，经验）为：

在选择合适的风险函数后，需要寻找一个参数θ^* ，使得经验风险函数最小化：

于是机器学习问题转化为一个最优化问题。

3、优化。寻找合适的模型参数集合，使得总体的损失函数值最小。如使用梯度下降（Gradient Descent）优化。下面是梯度下降的一个例图，因为不太了解就不详细展开
梯度下降了。如下：
在这里插入图片描述
有一个比较重要的概念——学习率（Learning Rate），指搜索步长α。学习率是十分重要的超参数！学习率过低，会导致训练时间过长，在使损失函数达到最低时可能需要非常多的时间；学习率过高，又会使损失函数的每次变化的大小剧烈变动，很难收敛。
在这里插入图片描述

2.3.4 过拟合与欠拟合

过拟合：学习器把训练样本学习的“太过好了”，将训练样本本身的特点当做所有样本的一般性质，导致泛化性能下降。经验风险最小化原则很容易导致模型在训练集上错误率很低，但是在未知数据上错误率很高。过拟合问题往往是由于训练数据少和噪声等原因造成的。
欠拟合：对训练样本的一般性质尚未学好。

下面是一个例子：

总之，过拟合：学习器把训练样本本身特点当做所有潜在样本都会具有的一般性质。欠拟合：训练样本的一般性质尚未被学习器学好。

一般经常出现的是过拟合，欠拟合的问题较容易解决。解决过拟合的一种方法是提前停止，即使用一个验证集（Validation Data set）来测试每一次迭代的参数在验证集上是否最优。如果在验证集上的错误率不再下降，就停止迭代。
在这里插入图片描述
上图中，虚线指训练集，实线指验证集。前期，随着迭代次数的增加，模型在两个集合的错误率均在下降。达到箭头处时，训练集的错误率不降反增，而训练集的错误率还在降，这时候就可能发生了过拟合问题，即模型参数对训练集拟合的太过，导致模型可能对训练集以外的测试集与验证集的性能下降。此时，就应该停止对训练集的训练。

2.4 机器学习的分类

2.41 根据目标划分

分类问题：函数的返回值或输出为离散值。分为二分类问题（如判断西瓜的好与坏）与多分类问题（根据瓜的特征将目标划分为冬瓜、南瓜、西瓜、哈密瓜，黄瓜等）。
回归问题：函数的返回值或输出为连续的数值。如根据西瓜的不同特征，返回西瓜的成熟度，成熟度为一个数值，具有大小。
聚类问题：训练集中无标签值。

2.42 根据有无标签划分

监督学习：有标签值。如分类、回归，均为监督学习。
无监督学习：无标签值。如聚类。
半监督学习：将前两者结合使用，如使用少量有标签的值，剩余的大部分是无标签的值，用这些数据集来训练模型。

还有一个叫迁移学习的，老师讲课的时候是这样说的：首先用一组训练数据集去训练模型，最后得到一组合适的模型参数，然后再选用其他的训练数据集去训练已训练好的模型，再得到新的模型以及参数…不断重复。这样的模型可以很好地拟合已训练的所有的训练集，不断这样训练，最终得到一个最优的模型。这样的学习过程就叫做迁移学习。

2.5 如何选择合适的模型

模型的选择：

拟合能力强的模型一般复杂度会比较高，容易过拟合。
如果限制模型复杂度，降低拟合能力，可能会欠拟合。

偏差与方差分解，期望错误可以分解为（抱歉，我不懂下面的公式，故无法解释）：
在这里插入图片描述
下面的图横纵坐标分别为模型复杂度与错误，我还是不懂，抱歉：

3 数据分析

3.1 描述性分析

用统计学方法，描述数据的统计特征量，分析数据的分布特性。主要包括数据的集中趋势分析（Central tendency）、数据离散趋势分析（Dispersion tendency）、数据的频数分布（Frequency distribution）等。

3.1.1 数据集中趋势度量

1、算术均值（Mean），如下：
在这里插入图片描述
2、加权平均：又称加权算术平均。这样的话，可以使集合中每个值与一个权值相关联。如下：

3、截断均值：可以抵消少数极端值的影响。去掉最高和最低值，如：薪水的截断均值，或评委打分。

4、中位数（Median）：先将数集从小到大排序。然后，若总共有奇数个数值，则取最中间那个值。若是偶数个数值，则取最中间两个值的平均值。如：数集为{4，1，2，6，7}。先从小到大排序为{1，2，4，6，7}，则选择4为中位数。相较于均值，中位数有着更好的抗扰性。如：在99个年收10万的人中加入一个年收1000万的，可以把平均年收入提高到19.9万，但这一均值实际上并没有很好地反映出这个人群的收入特征，而中位数对这个问题并没有那么敏感了。

5、众数（Mode）：是在一组数据中，出现次数最多的数据。

下图为对称数据、左偏数据和右偏数据的中位数、均值和众数图像表示，其中横坐标表示数据，纵坐标表示数据出现次数：
在这里插入图片描述

3.1.2 数据离散趋势度量

1、方差(Variance）：方差值越大说明该数据项波动越大。当数据分布比较分散时，各个数据与平均数的差的平方和较大，方差就较大；而当数据分布比较集中时，各个数据与平均数的差的平方和较小。方差计算公式如下：
在这里插入图片描述
2、极差：最大值与最小值之差。

3、四分位数（Quartile）也称四分位点。首先将所有数值按从小到大的顺序排列，然后分成四等份，处于三个分割点位置的就是四分位数。如下：
在这里插入图片描述
（1）第一“四分位数”(Q₁)，又称“较小四分位数”。

（2）第二“四分位数"(Q₂)，又称“中位数”。

（3）第三“四分位数"(Q₃)，又称“较大四分位数”。

其中，第三“四分位数”与第一“四分位数"的差距又称四分位距（Interquartile Range，IQR）。Q₁的位置= (n+1) × 0.25；Q₂的位置= (n+1) × 0.5；Q₃的位置= (n+1) × 0.75。

如：{6,7,15,36,39,40,41,42,43,47,49}中的15、40、43分别为Q₁、Q₂、Q₃。

4、五数概括：数据集分布形状的完整概括包含中位数、四分位数Q₁和Q₃、最小和最大观测值。五数概括通常用箱形图（或称为盒图）进行可视化表示。

5、盒图：又称为箱形图（Box plot）。是五数概括的可视化，数据分布用一个盒子来表示。盒子上下两端是第三和第一“四分位数”。中位数在盒子里用一条线标记。外边界：盒子外面延伸到最大值和最小值的两条线，也称为“胡须”。如下图：
在这里插入图片描述
盒图示例：学生成绩分布，如下：

从上图中可以看出，学生的英语成绩相对其它科目普遍较好，因为各科最高分基本都是100，而英语的最低分比其他科的最低分要高，英语成绩的中位数、上下四分位数也均比其他科高。而数学则大部分都处于80分以下，成绩集中在65~78之间。

3.1.3 数据的偏态与峰度

1、偏度（Skewness）也称为偏态、偏态系数，是统计数据分布偏斜方向和程度的度量，是统计数据分布非对称程度的数字特征。如下：
在这里插入图片描述
下图为偏度分别等于、大于、小于0的图示：

2、峰度（Kurtosis）是用来反映频数分布曲线顶端尖峭或扁平程度的指标。通过对峰度系数的测量，能够判定数据分布相对于正态分布而言是更陡峭还是平缓。如下：
在这里插入图片描述
下图中，有些曲线顶端较尖，而有些曲线顶端较扁平：

3.1.4 多维数据的相关性

有许多数据实际上包含了多个维度，如微博数据包含：发布时间、点赞数和转发量等。想要分析两个维度数据之间的关系，可以用协方差和Pearson相关系数。

一个k维的数据可以表示为x=(x₁,x₂,…x_k)，多维数据的均值和协方差矩阵（Covariance matrix）为：
在这里插入图片描述
上式中，1为均值；2为维度分别为i和j的协方差矩阵；3为2协方差矩阵的元素表示。

下图为Pearson相关系数：
在这里插入图片描述
还有一个相关系数ρ_X,Y，如下：

在这里插入图片描述
上图中，cov(X,Y)为X与Y的协方差，σ_X与σ_Y为X和Y的方差的平方根。

注意，Pearson相关系数衡量的是线性相关关系。若r=0，只能说x与y之间无线性相关关系，不能说无相关关系。

相关系数的绝对值越大，相关性越强。相关系数越接近于1或-1，相关度越强；相关系数越接近于0，相关度越弱。

通常情况下通过以下相关系数的取值范围，判断变量的相关强度：

0.8-1.0，极强相关；
0.6-0.8，强相关；
0.4-0.6，中等程度相关；
0.2-0.4，弱相关；
0.0-0.2，极弱相关或无相关。

下图为各种相关程度的图像：
在这里插入图片描述
两个随机变量X与Y之间相互关系，大致有下列3种情况：

在这里插入图片描述
根据上图可得：

当X与Y正相关时，它们的分布大部分在区域(1)和(3)中，有cov(X, Y)>0；
当X与Y负相关时，它们的分布大部分在区域(2)和(4)中，有cov(X, Y)<0；
当X与Y不相关时，它们在区域(1)和(3)中的分布，与在区域(2)和(4)中的分布几乎一样多，有cov(X, Y)=0。

3.2 回归分析（待补充的）

3.3 聚类分析（待补充的）

3.4 分类分析（待补充的）

4 常用的定理

4.1 没有免费午餐定理

没有免费午餐定理（No Free Lunch Theorem，NFL）指对于基于迭代的最优化算法，不存在某种算法对所有问题（有限的搜索空间内）都有效。如果一个算法对某些问题有效，那么它一定在另外一些问题上比纯随机搜索算法更差。

4.2 丑小鸭定理

丑小鸭定理（Ugly Duckling Theorem）指丑小鸭与白天鹅之间的区别和两只白天鹅之间的区别一样大，有没有区别都在于人的主观判断。即世界上不存在分类的客观标准，一切分类的标准都是主观的。

4.3 奥卡姆剃刀原理

奥卡姆剃刀原理（Occam’s Razor）指如无必要，勿增实体，切勿浪费较多东西去做，用较少的东西，同样可以做好的事情。在保持模型最优的情况下，减少不必要的部分。

4.4 归纳偏置

很多学习算法经常会对学习的问题做一些假设，这些假设就称为归纳偏置(Inductive Bias)。如在最近邻分类器中，会假设在特征空间中，一个小的局部区域中的大部分样本都同属一类。又如在朴素贝叶斯分类器中，会假设每个特征的条件概率是互相独立的。归纳偏置在贝叶斯学习中也经常称为先验（Prior）。

5 最大似然估计

5.1 概率的概念

1、概率（Probability），指一个随机事件发生的可能性大小，为0到1之间的实数。

2、随机变量（Random Variable），比如随机掷一个骰子，得到的点数就可以看成一个随机变量X，其取值为{1,2,3,4,5,6}。

3、概率分布（Probability Distribution），指一个随机变量X取每种可能值的概率，如下：
在这里插入图片描述
并且满足：

下面介绍几种概率分布。

5.2 概率分布

5.21 伯努利分布

在一次试验中，事件A出现的概率为p，不出现的概率为1−p，设q=1-p。若用变量X表示事件A出现的次数，则X的取值为1和0，分别指的是出现与不出现。
在这里插入图片描述
其相应的分布为：

5.22 二项分布

在n次伯努利分布中，若以变量X表示事件A出现的次数，则X 的取值为{0,…,n}，其相应的分布：
在这里插入图片描述
上图中，(n k)为二项式系数，也就是C^k_n表示从n个元素中取出k个元素而不考虑其顺序的组合的总数。

5.23 高斯分布（即正态分布）

连续随机变量𝑌的概率分布一般用概率密度函数𝑝(𝑥)来描述。其中：
在这里插入图片描述
高斯分布就是正态分布：

5.3 最大似然估计

首先贝叶斯公式如下：
在这里插入图片描述
其中，p(Y|X) ∝ p(X|Y) * p(Y)，∝指左右两边的值成正比例关系。三个分别称为后验概率（posterior）、似然（likelihood）、先验概率（prior）。即posterior ∝ likelihood * prior。

从概率角度来看线性回归：假设标签y为一个随机变量，其服从以均值为𝑓(𝑥; 𝑤) = 𝑤^𝑇𝑥，方差为𝜎²的高斯分布，则：
在这里插入图片描述
线性回归中的似然函数：参数w在训练集D上的似然函数（Likelihood）为：

最大似然估计（Maximum Likelihood Estimate，MLE），就是指找到一组参数w使得似然函数p(y|X;w,σ)最大。令似然函数对参数w的偏导等于0，然后求出对应的参数w，即为所求。如下（我不懂箭头下面公式的右面式子是什么意思）：
在这里插入图片描述