机器学习基本术语

1、数据集(Data Set):一个关于事件或多个对象的集合,包含多个对象,且一个对象包含多个属性值,由此可以构成一个二维矩阵。
2、属性(attribute)或特征(feature):上述二维矩阵的一行可以代表一类事物的一个属性,比如西瓜的外皮颜色,敲声(书中例子)

3、属性值:一个对象(样本)的一个属性的取值,往往在矩阵中体现为第i行第j列的值

4、属性空间(attribute space)或样本空间(sample space): 有多个属性组成的多维空间,如例子中颜色和敲声可以组成二维属性空间,每个样本都是空间中一个确定的点

5、特征向量(feature vector)每个样本所有特征值组成的(列)向量
6、维数(dimensionality):特征向量的维数

7、学习(learning)或训练(training): 执行算法进行学习归纳

8、假设(hypothesis)和真相(ground truth):数据集中真实存在的规律称之为真相,学习得到的模型描述数据中规律称之为假设。学习算法的目的是使假设逼近真相。

9、标记(label)和标记空间(label space): 在预测模型中,样例数据中含有的”结果”称之为标记,比如预测西瓜质量,好瓜坏瓜就是样本数据的标记,所有标记的集合称之为标记空间

10、分类(classification)和回归(regression):在预测模型中,预测的值为离散型称之为分类,连续性称之为回归。特别的,在离散型二分类中有正类反类的说法。

11、聚类(clustering):将样本数据集进行分组称之为聚类,注意区分聚类与分类,关键在于是否用到标记,分类是一个预测模型,会用到标记,而聚类则不用。

12、监督学习(supervised learning)和无监督学习(unsupervised learning):是否有标记信息,分类回归是监督学习代表,聚类为无监督学习的代表

13、泛化(generalization)能力:学习或训练得到的模型能否很好的适应与整个样本空间,简单来说就是归纳学习得到的一个“概念”,是否能进行很好的概括,能否很好适应新样本数据。

14、假设空间:上文提到假设,假设空间就是假设的集合,比如我们通过颜色和敲声来预测西瓜好坏时,我们可以假设绿皮敲声清脆或沉闷的瓜就是好瓜,当然我们也可以有其它假设,假设空间包含所有对于好瓜的假设。很多学习的算法就是从假设空间中搜索到合理的假设,得到归纳学习的模型。

15、版本空间(version space): 在假设空间中会有很多假设与训练集一致,这些假设集合称之为版本空间。

16归纳偏好:既然有多个版本那应该如何进行取舍,归纳偏好就是取舍的准则。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值