模式识别(更新中)

一、名词解释:

1、机器学习

机器学习就是让机器自己有学习能力,能模拟人的思维方式去解决问题。机器学习:通过算法使得机器从大量历史数据中学习规律,从而对新样本做分类或者预测。其过程分为:1)建立模型(训练阶段)2)分类或预测(工作阶段)3)模型评估(测试阶段)

2、过拟合

在训练集上误差低,测试集上误差高。
过拟合原因:模型把数据学习的太彻底,以至于把噪声数据的特征也学习到了,这样就会导致在后期测试的时候不能够很好地识别数据,模型泛化能力太差。

3、欠拟合

模型在训练集上误差很高。
欠拟合原因:模型过于简单,没有很好的捕捉到数据特征,不能很好的拟合数据。

加深理解

4、n折交叉验证

由于验证数据集不参与模型训练,当训练数据不够用时,预留大量的验证数据显得太奢侈。⼀种改善的方法是K折交叉验证。在K折交叉验证中,我们把原始训练数据集分割成K个不重合的子数据集,然后我们做K次模型训练和验证。每一次,我们使用一个子数据集验证模型,并使用其它K−1个子数据集来训练模型。在这K次训练和验证中,每次用来验证模型的子数据集都不同。最后,我们对这K次训练误差和验证误差分别求平均。

在这里插入图片描述
n折交叉验证:
n折交叉验证(n是数据集中样本的数目)被称为留一法(Leave-One Out),即每次用一个样本做验证集,其余的样本做训练集。
留一法的一个优点是每次迭代中都使用了最大可能数目的样本来训练。另一个优点是该方法具有确定性。

5、查准率(precision)

预测为正例样本中真实类别为正例的比例
在这里插入图片描述
在这里插入图片描述

6、查全率(Recall)

真实类别为正例的样本预测为正例的比例。
在这里插入图片描述

7、PR曲线平衡点

P-R曲线:以查准率为纵轴、查全率为横轴作图
在这里插入图片描述
(1)一个模型的P-R曲线完全包住了另外一个模型的P-R曲线,则前者的性能优于后者,A、B优于C;
(2)P-R曲线包含的面积的大小,包含的面积越大表示模型效果越好;
(3)“平衡点”(Break-Even-Point,简称BEP):P=R时的取值,谁大谁优,A优于B。

8、假正例率

FPR(假正例率):预测为正例并且预测错了的数量占真实类别为反例样本的比例。

9、真正例率

TPR(真正例率):预测为正例并且预测正确的数量占真实类别为正例样本的比例。
在这里插入图片描述

10、AUC

AUC:ROC曲线与横轴所围成的面积,AUC越大,模型的分类性能就越高。(需自己先了解ROC曲线)
在这里插入图片描述

11、凸函数

凸函数:对于一元函数f(x),如果对于任意tϵ[0,1]均满足f(tx1+(1−t)x2)≤tf(x1)+(1−t)f(x2)。凸函数的割线在函数曲线的上方。
在这里插入图片描述
凸函数具有唯一的极小值,该极小值就是最小值。也就意味着我们求得的模型是全局最优的,不会陷入局部最优值。

12、梯度

梯度:一个函数的全部偏导数构成的向量。
在这里插入图片描述
梯度向量的方向即为函数值增长最快的方向,沿着梯度方向可以最快地找到函数的最大值,而我们要求误差的最小值,所以在梯度下降中我们要沿着梯度相反的方向。
在这里插入图片描述
其中0<=η<=1为学习率.

13、信息增益

信息增益:在划分数据集之前之后信息发生的变化。
按照属性的特征值划分数据集,计算信息增益,获得信息增益最高的属性就是最好的选择。在这里插入图片描述

14、基尼指数

CART决策树使用“基尼指数”来选择划分属性。在这里插入图片描述
Gini(D)反映了从数据集D中随机取两个样本,其类别标记不一样的概率,因此Gini(D)越小,则数据集的纯度越高

15、预剪枝

对每个结点划分前先进行估计,若当前结点的划分不能带来决策树的泛化性能的提升,则停止划分,并标记为叶结点。

16、后剪枝

先从训练集生成一棵完整的决策树,然后自底向上对非叶子结点进行考察,若该结点对应的子树用叶结点能带来决策树泛化性能的提升,则将该子树替换为叶结点。
在这里插入图片描述

17、神经网络

神经网络是由具有适应性的简单单元组成的广泛并行互连的网络,他的组织能够模拟生物神经系统对真实世界物体所作出的交互反应。

18、one-hot编码

俺没找到。。。。。。
参考这位大佬的文章吧
点这里

19、间隔

两个异类支持向量到超平面的距离之和。

20、支持向量

距离超平面最近的样本点在这里插入图片描述
在这里插入图片描述

21、聚类

物以类聚。按照某一个特定的标准(比如距离),把一个数据集分割成不同的类或簇(cluster),使得同一个簇内的数据对象的相似性尽可能大,同时不在同一个簇内的数据对象的差异性也尽可能的大。

聚类可以作为一个单独过程,用于寻找数据内在分布结构,也可以作为其他学习任务前驱过程。

聚类性能的度量:

  • 外部指标: 将聚类结果与某个“参考模型”进行比较
  • 内部指标:直接考察聚类结果而不利用任何参考模型
22、降维

维数灾难:当特征数量相对于数据集中的观测样本非常大时,某些算法很难训练有效的模型。 这被称为“维度灾难”
降维:保留重要的特征维度,去除冗余或不相关的特征。(通过某种数学变换将原始高维属性空间转变为一个低维“子空间”,,在这个子空间内样本密度大幅提高,距离计算也变得更为容易)
降维的作用:

  • 降低机器学习算法的时间复杂度;
  • 节省了提取不必要特征的开销;
  • 缓解因为维数灾难所造成的过拟合现象。

降维的方法:特征选择与特征提取

  • 特征选择:保留了原始特征,是原始特征的子集
  • 特征提取:创建了一组全新的小的特征,是原始特征的组合。
23、留一法

见4、n折交叉验证

评论 5
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值