机器学习入门(一)--基本术语的了解 上篇

各类数据源于周志华教授的《机器学习》,阅读时囫囵吞枣,记录在此只为帮助理解,具体请自行查看。

例子:西瓜的数据三组

        a、色泽=青绿;瓜蒂=蜷缩;敲声=浊响

        b、色泽=乌黑;瓜蒂=微蜷;敲声=沉闷

        c、色泽=浅白;瓜蒂=硬挺;敲声=清脆

1 基本术语

 1.1 数据集

例子中每一组都是一条记录,而这三组数据的集合称为一个“数据集”。

1.2 示例(instance)/样本(sample)

其中每条记录都是关于一个事件或对象(例子中的西瓜)的描述,称为一个“示例”或”样本“。

注:有时候整个数据集也可以称作一个“样本”,因为它可以看作对“样本空间”的一个采样。

1.3 属性(attribute)/特征(feature)

反映事件或对象在某方面的表现或性质的事项(例子中的“色泽”、“瓜蒂”和“敲声”)称为“属性”或“特征”。

1.4 属性值(attribute value)

属性上的取值称为“属性值”

1.5 属性空间(attribute space)/样本空间(sample space)/输入空间

属性张成的空间称为“属性空间”、”样本空间“或"输入空间“(例如将“色泽”、“瓜蒂”和“敲声”作为三个坐标轴张成的描述西瓜的三维空间)

1.6 特征向量(feature vector)

在“属性空间”中每个西瓜都能在其中找到自己的坐标,因此我们把一个”示例“也叫做”特征向量“。

1.7 维数(dimensionality)

一般令D=\left \{ x_{1},x_{2},...,x_{m} \right \}表示包含m个“示例”的“数据集”,每个”示例“由d个”属性“描述(例子中的西瓜使用了3个”属性“),则x_{i}=\left \{ x_{i1}, x_{i2},...,x_{id} \right \}是d维”样本空间“X中的一个向量,其中x_{ij}x_{i}在第j个”属性“上的取值(例子中第三个西瓜在第二个“属性”上的值是”硬挺“),d则称为样本x_{i}的”维数“。

1.8 学习(learning)/训练(training)

从数据在学得模型的过程称为”学习或”训练“,这个过程通过执行某个学习算法来完成。

1.9 训练数据(training data)

训练过程中使用的数据称为“训练数据”。

1.10 训练样本(training sample)

其中每一个样本称为一个“训练样本”。

注:训练样本也称为“训练示例”(training instance)或“训练例”。

1.11 训练集(training set)

“训练样本”组成的集合。

1.12 假设(hypothesis)

学得模型对应了关于数据的某种潜在规律称为“假设”。

1.13 真相/真实(ground-truth)

潜在规律本身就称为“真相”或“真实”。

注:学习算法通常有参数需设置,使用不同参数值和训练数据,将产生不同的结果

 

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值