模式识别名词解释整理

1、机器学习:通过算法使得机器从大量历史数据中学习规律,从而对新样本做分类或者
预测。
2、过拟合:在训练集上误差低,测试集上误差高。
3、欠拟合:模型在训练集上误差很高。
4、n 折交叉验证:在 K 折交叉验证中,我们把原始训练数据集分割成 K 个不重合的子数
据集,然后我们做 K 次模型训练和验证。每一次,我们使用一个子数据集验证模型,并使用
其它 K−1 个子数据集来训练模型。在这 K 次训练和验证中,每次用来验证模型的子数据集都
不同。最后,我们对这 K 次训练误差和验证误差分别求平均。
5、查准率:预测为正例样本中真实类别为正例的比例。
6、查全率:真实类别为正例的样本预测为正例的比例。
7、PR 曲线平衡点:P=R 时的取值。
8、假正例率:预测为正例并且预测错了的数量占真实类别为反例样本的比例。
9、真正例率:预测为正例并且预测正确的数量占真实类别为正例样本的比例。
10、AUC:ROC 曲线与横轴所围成的面积(AUC 越大,模型的分类性能就越高)。
11、凸函数:对于一元函数 f(x),如果对于任意 tϵ[0,1]均满足 f(tx1+(1−t)x2)≤tf(x1)+(1−
t)f(x2)。
12、梯度:一个函数的全部偏导数构成的向量。
13、信息增益:在划分数据集之前之后信息发生的变化。
14、基尼指数:反映了从 D 中随机抽取两个样例,其类别标记不一致的概率。(Gini(D) 越
小,数据集 D 的纯度越高)。
15、预剪枝:对每个结点划分前先进行估计,若当前结点的划分不能带来决策树的泛化性
能的提升,则停止划分,并标记为叶结点。
16、后剪枝:先从训练集生成一棵完整的决策树,然后自底向上对非叶子结点进行考察,
若该结点对应的子树用叶结点能带来决策树泛化性能的提升,则将该子树替换为叶结点。
17、神经网络:由适应性的简单单元组成的广泛并行互连的网络。他的组织能够模拟生物
神经系统对真实世界物体所作出的交互反应。
18、one-hot 编码:One-Hot 编码又称为一位有效编码,主要是采用 N 位状态寄存器来对
N 个状态进行编码,每个状态都由他独立的寄存器位,并且在任意时候只有一位有效。
19、间隔:两个异类支持向量到超平面的距离之和。
20、支持向量:距离超平面最近的样本点。
21、聚类:按照某一个特定的标准(比如距离),把一个数据集分割成不同的类或簇(cluster),
使得同一个簇内的数据对象的相似性尽可能大,同时不在同一个簇内的数据对象的差异性也
尽可能的大。
22、降维:保留重要的特征维度,去除冗余或不相关的特征。
23、留一法:n 折交叉验证(n 是数据集中样本的数目)被称为留一法(Leave-One Out),
即每次用一个样本做验证集,其余的样本做训练集。

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

黑马奔腾,浴火重生

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值