6 机器学习基础


1 混淆矩阵等概念

1.1 混淆矩阵

假设现在有10000个人,分为四组,如下:
在这里插入图片描述
下面是按照上面的分组,相当于混淆矩阵的一个例子:
在这里插入图片描述
下面是正儿八经的混淆矩阵:
在这里插入图片描述
下面又是一个例子:
在这里插入图片描述

1.2 准确率

准确率(Accuracy) 是所有的预测正确(正类负类)的占总的比例
在这里插入图片描述

1.3 精度

精度(precision,或者PPV,positive predictive value) ,查准率。即正确预测为正的占全部预测为正的比例
在这里插入图片描述

1.4 召回率

召回(recall,或者敏感度,sensitivity, 真阳性率,TPR,True Positive Rate),即正确预测为正的占全部实际为正的比例
在这里插入图片描述

1.5 F1

F1值(H-mean值 ), F1值为精度P与召回率R算数平均数除以几何平均数,且越大越好
在这里插入图片描述
注意:精度P与召回率R反比。理由是这样的:根据上面的公式可以看出,P与R的不同为分母的FP与FN。而FP与FN均为判断与事实不符的,FP指假阳性,FN指假阴性,这两个值一个增加则另一个减少。不妨设FP增加,则FN减少,则P减小且R增大,因此二者确实是反比关系。


2 机器学习

假设用P来评估计算机程序在某任务类T上的性能,若一个程序通过利用经验E在T中的任务上获得了性能改善,即P增加了,则我们就说关于T和P,该程序对E进行了学习

机器学习致力于研究如何通过计算的手段,利用经验来改善系统自身的性能,从而在计算机上根据数据产生一个“模型”,用于对新的情况给出判断。
在这里插入图片描述
因为现实世界的问题都比较复杂,很难通过规则来手工实现,如下面的数字识别与声音识别:
在这里插入图片描述
所以需要机器学习

2.1 机器学习 ≈ 构建一个映射函数

在这里插入图片描述

2.2 机器学习概念

机器学习:通过算法使得机器能从大量数据中学习规律从而对新的样本做决策。

规律:决策/预测函数,如下:
在这里插入图片描述

2.3 一些术语

2.31 数据集

数据集分为训练集与测试集,两个集合都由一个个样本或称为数据组成,其中数据由特征与标签组成,如下:
在这里插入图片描述

2.32 泛化能力

机器学习的目标是使得学到的模型能很好的适用于“新样本”,而不仅仅是训练集合,称模型适用于新样本的能力泛化(generalization)能力

通常假设样本空间中的样本服从一个未知分布,样本从这个分布中独立获得,即“独立同分布” 。一般而言训练样本越越有可能通过学习获得强泛化能力的模型。

2.33 机器学习的三要素

1、模型
在这里插入图片描述
2、学习准则。包括错误率误差损失函数期望风险等。

错误率:错分样本的占比。

误差:样本真实输出与预测输出之间的差异,包括:

  • 训练误差:训练集上;
  • 测试误差:测试集上;
  • 泛化误差:除训练集外所有样本。

损失函数:L(f(x), y)为损失函数,f(x)为模型输出值,y为标签值,若损失函数值为0,则模型已经训练地很好了,但是显然现实情况很难达到完美。介绍两种损失函数,如下:

  • 0-1损失函数
    在这里插入图片描述
  • 平方损失函数
    在这里插入图片描述
    下图中:R(f)为期望风险(Risk);E(x, y)为期望;L(f(x), y)为损失函数。下式指的具体是啥,抱歉我也不懂…
    在这里插入图片描述
    不过由于期望风险是未知的,所以通过经验风险当作期望风险的近似值。如,在训练数据:𝒟 = {x(n), y(n), 𝑖 ∈ [1, 𝑁]},则期望风险(下面的emp为experience,经验)为:
    在这里插入图片描述
    在选择合适的风险函数后,需要寻找一个参数θ* ,使得经验风险函数最小化:
    在这里插入图片描述
    于是机器学习问题转化为一个最优化问题。

3、优化。寻找合适的模型参数集合,使得总体的损失函数值最小。如使用梯度下降(Gradient Descent)优化。下面是梯度下降的一个例图,因为不太了解就不详细展开
梯度下降了。如下:
在这里插入图片描述
有一个比较重要的概念——学习率(Learning Rate),指搜索步长α。学习率是十分重要的超参数!学习率过低,会导致训练时间过长,在使损失函数达到最低时可能需要非常多的时间;学习率过高,又会使损失函数的每次变化的大小剧烈变动,很难收敛。
在这里插入图片描述
在这里插入图片描述

2.3.4 过拟合与欠拟合

  • 过拟合:学习器把训练样本学习的“太过好了”,将训练样本本身的特点当做所有样本的一般性质,导致泛化性能下降。经验风险最小化原则很容易导致模型在训练集上错误率很低,但是在未知数据上错误率很高。过拟合问题往往是由于训练数据少噪声等原因造成的。

  • 欠拟合:对训练样本的一般性质尚未学好
    在这里插入图片描述
    下面是一个例子:
    在这里插入图片描述
    总之,过拟合:学习器把训练样本本身特点当做所有潜在样本都会具有的一般性质。欠拟合:训练样本的一般性质尚未被学习器学好。

一般经常出现的是过拟合,欠拟合的问题较容易解决。解决过拟合的一种方法是提前停止,即使用一个验证集(Validation Data set)来测试每一次迭代的参数在验证集上是否最优。如果在验证集上的错误率不再下降,就停止迭代
在这里插入图片描述
上图中,虚线指训练集,实线指验证集。前期,随着迭代次数的增加,模型在两个集合的错误率均在下降。达到箭头处时,训练集的错误率不降反增,而训练集的错误率还在降,这时候就可能发生了过拟合问题,即模型参数对训练集拟合的太过,导致模型可能对训练集以外的测试集与验证集的性能下降。此时,就应该停止对训练集的训练。

2.4 机器学习的分类

2.41 根据目标划分

  • 分类问题:函数的返回值或输出为离散值。分为二分类问题(如判断西瓜的好与坏)与多分类问题(根据瓜的特征将目标划分为冬瓜、南瓜、西瓜、哈密瓜,黄瓜等)。
  • 回归问题:函数的返回值或输出为连续的数值。如根据西瓜的不同特征,返回西瓜的成熟度,成熟度为一个数值,具有大小。
  • 聚类问题:训练集中无标签值。
    在这里插入图片描述

2.42 根据有无标签划分

  • 监督学习:有标签值。如分类、回归,均为监督学习。
  • 无监督学习:无标签值。如聚类。
  • 半监督学习:将前两者结合使用,如使用少量有标签的值,剩余的大部分是无标签的值,用这些数据集来训练模型。
    在这里插入图片描述
    还有一个叫迁移学习的,老师讲课的时候是这样说的:首先用一组训练数据集去训练模型,最后得到一组合适的模型参数,然后再选用其他的训练数据集去训练已训练好的模型,再得到新的模型以及参数…不断重复。这样的模型可以很好地拟合已训练的所有的训练集,不断这样训练,最终得到一个最优的模型。这样的学习过程就叫做迁移学习

2.5 如何选择合适的模型

模型的选择

  • 拟合能力强的模型一般复杂度会比较高,容易过拟合。
  • 如果限制模型复杂度,降低拟合能力,可能会欠拟合。

偏差与方差分解,期望错误可以分解为(抱歉,我不懂下面的公式,故无法解释):
在这里插入图片描述
下面的图横纵坐标分别为模型复杂度与错误,我还是不懂,抱歉:
在这里插入图片描述


3 数据分析

3.1 描述性分析

用统计学方法,描述数据的统计特征量,分析数据的分布特性。主要包括数据的集中趋势分析(Central tendency)、数据离散趋势分析(Dispersion tendency)、数据的频数分布(Frequency distribution)等。

3.1.1 数据集中趋势度量

1、算术均值(Mean),如下:
在这里插入图片描述
2、加权平均:又称加权算术平均。这样的话,可以使集合中每个值与一个权值相关联。如下:
在这里插入图片描述
3、截断均值:可以抵消少数极端值的影响。去掉最高和最低值,如:薪水的截断均值,或评委打分。

4、中位数(Median):先将数集从小到大排序。然后,若总共有奇数个数值,则取最中间那个值。若是偶数个数值,则取最中间两个值的平均值。如:数集为{4,1,2,6,7}。先从小到大排序为{1,2,4,6,7},则选择4为中位数。相较于均值,中位数有着更好的抗扰性。如:在99个年收10万的人中加入一个年收1000万的,可以把平均年收入提高到19.9万,但这一均值实际上并没有很好地反映出这个人群的收入特征,而中位数对这个问题并没有那么敏感了。

5、众数(Mode):是在一组数据中,出现次数最多的数据。

下图为对称数据、左偏数据和右偏数据的中位数、均值和众数图像表示,其中横坐标表示数据,纵坐标表示数据出现次数:
在这里插入图片描述

3.1.2 数据离散趋势度量

1、方差(Variance):方差值越大说明该数据项波动越大。当数据分布比较分散时,各个数据与平均数的差的平方和较大,方差就较大;而当数据分布比较集中时,各个数据与平均数的差的平方和较小。方差计算公式如下:
在这里插入图片描述
2、极差:最大值与最小值之差。

3、四分位数(Quartile)也称四分位点。首先将所有数值按从小到大的顺序排列,然后分成四等份,处于三个分割点位置的就是四分位数。如下:
在这里插入图片描述
(1)第一“四分位数”(Q1),又称“较小四分位数”。

(2)第二“四分位数"(Q2),又称“中位数”。

(3)第三“四分位数"(Q3),又称“较大四分位数”。

其中,第三“四分位数”与第一“四分位数"的差距又称四分位距(Interquartile Range,IQR)。Q1的位置= (n+1) × 0.25;Q2的位置= (n+1) × 0.5;Q3的位置= (n+1) × 0.75。

如:{6,7,15,36,39,40,41,42,43,47,49}中的15、40、43分别为Q1、Q2、Q3

4、五数概括:数据集分布形状的完整概括包含中位数四分位数Q1和Q3最小和最大观测值。五数概括通常用箱形图(或称为盒图)进行可视化表示。

5、盒图:又称为箱形图(Box plot)。是五数概括可视化,数据分布用一个盒子来表示。盒子上下两端是第三和第一“四分位数”。中位数在盒子里用一条线标记。外边界:盒子外面延伸到最大值和最小值的两条线,也称为“胡须”。如下图:
在这里插入图片描述
盒图示例:学生成绩分布,如下:
在这里插入图片描述
从上图中可以看出,学生的英语成绩相对其它科目普遍较好,因为各科最高分基本都是100,而英语的最低分比其他科的最低分要高,英语成绩的中位数、上下四分位数也均比其他科高。而数学则大部分都处于80分以下,成绩集中在65~78之间。

3.1.3 数据的偏态与峰度

1、偏度(Skewness)也称为偏态、偏态系数,是统计数据分布偏斜方向和程度的度量,是统计数据分布非对称程度的数字特征。如下:
在这里插入图片描述
下图为偏度分别等于、大于、小于0的图示:
在这里插入图片描述
2、峰度(Kurtosis)是用来反映频数分布曲线顶端尖峭或扁平程度的指标。通过对峰度系数的测量,能够判定数据分布相对于正态分布而言是更陡峭还是平缓。如下:
在这里插入图片描述
下图中,有些曲线顶端较尖,而有些曲线顶端较扁平:
在这里插入图片描述

3.1.4 多维数据的相关性

有许多数据实际上包含了多个维度,如微博数据包含:发布时间、点赞数和转发量等。想要分析两个维度数据之间的关系,可以用协方差Pearson相关系数

一个k维的数据可以表示为x=(x1,x2,…xk),多维数据的均值协方差矩阵(Covariance matrix)为:
在这里插入图片描述
上式中,1为均值;2为维度分别为i和j的协方差矩阵;3为2协方差矩阵的元素表示。

下图为Pearson相关系数:
在这里插入图片描述
还有一个相关系数ρX,Y,如下:

在这里插入图片描述
上图中,cov(X,Y)为X与Y的协方差,σX与σY为X和Y的方差的平方根。

注意,Pearson相关系数衡量的是线性相关关系。若r=0,只能说x与y之间无线性相关关系不能说无相关关系

相关系数的绝对值越大,相关性越强。相关系数越接近于1或-1,相关度越强;相关系数越接近于0,相关度越弱。

通常情况下通过以下相关系数的取值范围,判断变量的相关强度:

  • 0.8-1.0,极强相关;
  • 0.6-0.8,强相关;
  • 0.4-0.6,中等程度相关;
  • 0.2-0.4,弱相关;
  • 0.0-0.2,极弱相关或无相关。

下图为各种相关程度的图像:
在这里插入图片描述
两个随机变量X与Y之间相互关系,大致有下列3种情况:

在这里插入图片描述
根据上图可得:

  • 当X与Y正相关时,它们的分布大部分在区域(1)和(3)中,有cov(X, Y)>0;
  • 当X与Y负相关时,它们的分布大部分在区域(2)和(4)中,有cov(X, Y)<0;
  • 当X与Y不相关时,它们在区域(1)和(3)中的分布,与在区域(2)和(4)中的分布几乎一样多,有cov(X, Y)=0。

3.2 回归分析(待补充的)

3.3 聚类分析(待补充的)

3.4 分类分析(待补充的)


4 常用的定理

4.1 没有免费午餐定理

没有免费午餐定理(No Free Lunch Theorem,NFL)指对于基于迭代的最优化算法,不存在某种算法对所有问题(有限的搜索空间内)都有效。如果一个算法对某些问题有效,那么它一定在另外一些问题上比纯随机搜索算法更差。

4.2 丑小鸭定理

丑小鸭定理(Ugly Duckling Theorem)指丑小鸭与白天鹅之间的区别和两只白天鹅之间的区别一样大,有没有区别都在于人的主观判断。即世界上不存在分类的客观标准,一切分类的标准都是主观的。

4.3 奥卡姆剃刀原理

奥卡姆剃刀原理(Occam’s Razor)指如无必要,勿增实体,切勿浪费较多东西去做,用较少的东西,同样可以做好的事情。在保持模型最优的情况下,减少不必要的部分。

4.4 归纳偏置

很多学习算法经常会对学习的问题做一些假设,这些假设就称为归纳偏置(Inductive Bias)。如在最近邻分类器中,会假设在特征空间中,一个小的局部区域中的大部分样本都同属一类。又如在朴素贝叶斯分类器中,会假设每个特征的条件概率是互相独立的。归纳偏置在贝叶斯学习中也经常称为先验(Prior)。


5 最大似然估计

5.1 概率的概念

1、概率(Probability),指一个随机事件发生的可能性大小,为0到1之间的实数。

2、随机变量(Random Variable),比如随机掷一个骰子,得到的点数就可以看成一个随机变量X,其取值为{1,2,3,4,5,6}。

3、概率分布(Probability Distribution),指一个随机变量X取每种可能值的概率,如下:
在这里插入图片描述
并且满足:
在这里插入图片描述
下面介绍几种概率分布。

5.2 概率分布

5.21 伯努利分布

在一次试验中,事件A出现的概率为p,不出现的概率为1−p,设q=1-p。若用变量X表示事件A出现的次数,则X的取值为1和0,分别指的是出现与不出现。
在这里插入图片描述
其相应的分布为:
在这里插入图片描述

5.22 二项分布

在n次伯努利分布中,若以变量X表示事件A出现的次数,则X 的取值为{0,…,n},其相应的分布:
在这里插入图片描述
上图中,(n k)为二项式系数,也就是Ckn表示从n个元素中取出k个元素而不考虑其顺序的组合的总数。

5.23 高斯分布(即正态分布)

连续随机变量𝑌的概率分布一般用概率密度函数𝑝(𝑥)来描述。其中:
在这里插入图片描述
高斯分布就是正态分布:
在这里插入图片描述

5.3 最大似然估计

首先贝叶斯公式如下:
在这里插入图片描述
其中,p(Y|X) ∝ p(X|Y) * p(Y),∝指左右两边的值成正比例关系。三个分别称为后验概率(posterior)、似然(likelihood)、先验概率(prior)。即posterior ∝ likelihood * prior。

从概率角度来看线性回归:假设标签y为一个随机变量,其服从以均值为𝑓(𝑥; 𝑤) = 𝑤𝑇𝑥,方差为𝜎2的高斯分布,则:
在这里插入图片描述
线性回归中的似然函数:参数w在训练集D上的似然函数(Likelihood)为:
在这里插入图片描述
最大似然估计(Maximum Likelihood Estimate,MLE),就是指找到一组参数w使得似然函数p(y|X;w,σ)最大。令似然函数对参数w的偏导等于0,然后求出对应的参数w,即为所求。如下(我不懂箭头下面公式的右面式子是什么意思):
在这里插入图片描述


6 线性回归(待补充的)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值