模式识别名词解释整理

最新推荐文章于 2023-05-06 18:19:59 发布

黑马奔腾，浴火重生

最新推荐文章于 2023-05-06 18:19:59 发布

阅读量1.1k

点赞数

分类专栏：笔记

本文链接：https://blog.csdn.net/qq_45439870/article/details/118485231

版权

笔记专栏收录该内容

1 篇文章

订阅专栏

1、机器学习：通过算法使得机器从大量历史数据中学习规律，从而对新样本做分类或者
预测。
2、过拟合：在训练集上误差低，测试集上误差高。
3、欠拟合：模型在训练集上误差很高。
4、n 折交叉验证：在 K 折交叉验证中，我们把原始训练数据集分割成 K 个不重合的子数
据集，然后我们做 K 次模型训练和验证。每一次，我们使用一个子数据集验证模型，并使用
其它 K−1 个子数据集来训练模型。在这 K 次训练和验证中，每次用来验证模型的子数据集都
不同。最后，我们对这 K 次训练误差和验证误差分别求平均。
5、查准率：预测为正例样本中真实类别为正例的比例。
6、查全率：真实类别为正例的样本预测为正例的比例。
7、PR 曲线平衡点：P=R 时的取值。
8、假正例率：预测为正例并且预测错了的数量占真实类别为反例样本的比例。
9、真正例率：预测为正例并且预测正确的数量占真实类别为正例样本的比例。
10、AUC：ROC 曲线与横轴所围成的面积（AUC 越大，模型的分类性能就越高）。
11、凸函数：对于一元函数 f(x)，如果对于任意 tϵ[0,1]均满足 f(tx1+(1−t)x2)≤tf(x1)+(1−
t)f(x2)。
12、梯度：一个函数的全部偏导数构成的向量。
13、信息增益：在划分数据集之前之后信息发生的变化。
14、基尼指数：反映了从 D 中随机抽取两个样例，其类别标记不一致的概率。（Gini(D) 越
小，数据集 D 的纯度越高）。
15、预剪枝：对每个结点划分前先进行估计，若当前结点的划分不能带来决策树的泛化性
能的提升，则停止划分，并标记为叶结点。
16、后剪枝：先从训练集生成一棵完整的决策树，然后自底向上对非叶子结点进行考察，
若该结点对应的子树用叶结点能带来决策树泛化性能的提升，则将该子树替换为叶结点。
17、神经网络：由适应性的简单单元组成的广泛并行互连的网络。他的组织能够模拟生物
神经系统对真实世界物体所作出的交互反应。
18、one-hot 编码：One-Hot 编码又称为一位有效编码，主要是采用 N 位状态寄存器来对
N 个状态进行编码，每个状态都由他独立的寄存器位，并且在任意时候只有一位有效。
19、间隔：两个异类支持向量到超平面的距离之和。
20、支持向量：距离超平面最近的样本点。
21、聚类：按照某一个特定的标准（比如距离），把一个数据集分割成不同的类或簇(cluster)，
使得同一个簇内的数据对象的相似性尽可能大，同时不在同一个簇内的数据对象的差异性也
尽可能的大。
22、降维：保留重要的特征维度，去除冗余或不相关的特征。
23、留一法：n 折交叉验证（n 是数据集中样本的数目）被称为留一法（Leave-One Out），
即每次用一个样本做验证集，其余的样本做训练集。