基本术语

**数据集/样本集:**记录这组数据的集合,也就是整个表格的数据。
**实例/样本:**记录一个事件/对象的描述,如表格的任意一行。
**(样本)属性/特征:**反映事件或对象在某方面的表现或性质的事项。
**(样本)属性值/特征值:**属性/特征所取的值。
**属性空间/样本空间/输入空间:**属性张成的空间,比如把西瓜的“色泽”,“根蒂”,“敲声”作为3个坐标轴,则它们张成一个用于描述西瓜的三维空间,每个西瓜都在这个空间中有其坐标位置。
**特征向量:**在前面所述的属性空间/样本空间/输入空间中,每个点都对应一个坐标位置,这个向量称为特征向量。
**维数:**样本属性的个数。
**学习/训练:**从数据模型中学习的过程。
**训练数据:**训练过程中使用的数据。
**标签/标记:**用于表示样本的结果信息。
**样例:**指既包含样本属性值,又包含标签的样本。注意与样本的区别,样本包括训练样本和测试样本,样本不一定具有标签。
**标记空间/输出空间:**所有标记结果的集合。
**预测:**根据已有的众多样例,判断某一样本的输出结果。
**分类:**当结果预测值为离散值时,此类任务城为分类。尤其是只涉及两个类别时,称为“二分类”。通常,其中一个称为“正类”,另一个称为“反类”。涉及多个类别时,称为“多分类”。
**回归:**当结果预测值为连续值时,如预测西瓜的成熟度,此类任务称为回归。
**测试:**通过学习得到模型后,使用样本进行检测的过程。
**测试样本:**用于进行检测的样本。
**新样本:**没有用于模型训练的样本都可认为是对该模型的新样本。
**泛化:**指训练的模型不仅适用于训练样本,同时适用于新样本。
**聚类:**将训练集中的西瓜分成若干组,每一个组称为“簇”。例如,通过学习,其自动形成的簇可能对应一些潜在概念的划分,如“浅色瓜”,“深色瓜”等。这样的学习过程有助于了解数据内在的规律。值得注意的是,在聚类学习中“浅色瓜”,“深色瓜”这些概念事先是不知道的,是学习过程中得到的,并且使用的训练样本不拥有标记信息。
**监督学习:**学习任务为分类和回归问题,且样本具有标记信息。
**无/非监督学习:**学习任务为聚类问题,且样本不具有标记信息。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值