机器学习基本术语

最新推荐文章于 2024-03-19 12:10:42 发布

WxyangID

最新推荐文章于 2024-03-19 12:10:42 发布

阅读量623

点赞数

分类专栏：机器学习文章标签：机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/WxyangID/article/details/78496111

版权

机器学习专栏收录该内容

22 篇文章 1 订阅

订阅专栏

1、数据集（Data Set）：一个关于事件或多个对象的集合，包含多个对象，且一个对象包含多个属性值，由此可以构成一个二维矩阵。
2、属性（attribute）或特征（feature）：上述二维矩阵的一行可以代表一类事物的一个属性，比如西瓜的外皮颜色，敲声（书中例子）

3、属性值：一个对象（样本）的一个属性的取值，往往在矩阵中体现为第i行第j列的值

4、属性空间（attribute space）或样本空间（sample space）：有多个属性组成的多维空间，如例子中颜色和敲声可以组成二维属性空间,每个样本都是空间中一个确定的点

5、特征向量（feature vector）每个样本所有特征值组成的（列）向量
6、维数（dimensionality）：特征向量的维数

7、学习（learning）或训练（training）：执行算法进行学习归纳

8、假设（hypothesis）和真相（ground truth）：数据集中真实存在的规律称之为真相，学习得到的模型描述数据中规律称之为假设。学习算法的目的是使假设逼近真相。

9、标记（label）和标记空间（label space）：在预测模型中，样例数据中含有的”结果”称之为标记，比如预测西瓜质量，好瓜坏瓜就是样本数据的标记，所有标记的集合称之为标记空间

10、分类（classification）和回归（regression）：在预测模型中，预测的值为离散型称之为分类，连续性称之为回归。特别的，在离散型二分类中有正类反类的说法。

11、聚类（clustering）：将样本数据集进行分组称之为聚类，注意区分聚类与分类，关键在于是否用到标记，分类是一个预测模型，会用到标记，而聚类则不用。

12、监督学习（supervised learning）和无监督学习（unsupervised learning）：是否有标记信息，分类回归是监督学习代表，聚类为无监督学习的代表

13、泛化（generalization）能力：学习或训练得到的模型能否很好的适应与整个样本空间，简单来说就是归纳学习得到的一个“概念”，是否能进行很好的概括，能否很好适应新样本数据。

14、假设空间：上文提到假设，假设空间就是假设的集合，比如我们通过颜色和敲声来预测西瓜好坏时，我们可以假设绿皮敲声清脆或沉闷的瓜就是好瓜，当然我们也可以有其它假设，假设空间包含所有对于好瓜的假设。很多学习的算法就是从假设空间中搜索到合理的假设，得到归纳学习的模型。

15、版本空间（version space）：在假设空间中会有很多假设与训练集一致，这些假设集合称之为版本空间。

16归纳偏好：既然有多个版本那应该如何进行取舍，归纳偏好就是取舍的准则。

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
机器学习基本术语

1、数据集（Data Set）：一个关于事件或多个对象的集合，包含多个对象，且一个对象包含多个属性值，由此可以构成一个二维矩阵。 2、属性（attribute）或特征（feature）：上述二维矩阵的一行可以代表一类事物的一个属性，比如西瓜的外皮颜色，敲声（书中例子）3、属性值：一个对象（样本）的一个属性的取值，往往在矩阵中体现为第i行第j列的值4、属性空间（attribute space）或样本
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。