周志华《机器学习》(西瓜书)学习笔记——第一章 绪论

1.2 基本术语

  1. 示例 / 样本 / 特征向量:是关于一个事件或对象的描述的记录
  2. 数据集:一组记录的集合
  3. 属性:反映事件或对象在某方面的表现或性质的事项。(比如西瓜的“色泽”、“敲声”等)
  4. 属性值:属性上的取值。(比如西瓜“青绿”等)
  5. 属性空间 / 样本空间 / 输入空间:属性张成的空间

以上,一般地,令 D = { x 1 , x 2 , . . . , x m } D = \{\mathbf{ x_1, x_2, ..., x_m}\} D={x1,x2,...,xm} 表示包含m个示例的数据集,每个示例由 d d d 个属性描述。其中 x i j x_{ij} xij x i \mathbf{x_i} xi 在第 j j j 个属性上的取值, d d d 称为样本 x i x_i xi 的“维数”。

  1. 训练 / 学习:从数据中学得模型的过程。训练过程中使用的数据称为 训练数据,其中每个样本称为一个 “训练样本”,训练样本组成的集合称为“训练集”。
  2. 假设:学得模型对应了关于数据的某种潜在的规律。
  3. 标记:关于示例结果的信息,如“好瓜”。
  4. 样例:拥有了标记信息的示例。一般地,用 ( x i , y i ) (\mathbf{x_i},y_i ) (xi,yi)表示第 i i i 个样例,其中 y i ∈ Y y_i ∈ Y yiY 是示例 x i \mathbf{x_i} xi 的标记, Y Y Y 是所有标记的集合,也称“标记空间 ”或“输出空间”。
  5. 分类:预测离散值的学习任务。
  6. 回归:预测连续值的学习任务。
  7. 二分类任务:只涉及两个类别的学习任务,其中一个类为“正类”,另一个类为“反类”。
  8. 多分类任务:设计多个类别的任务。

一般地,预测任务是希望通过对训练集 { ( x 1 , y 2 ) , ( x 2 , y 2 ) , . . . , ( x m , y m ) } \{(\mathbf{x_1},y_2),(\mathbf{x_2},y_2),...,(\mathbf{x_m},y_m)\} {(x1,y2),(x2,y2),...,(xm,ym)}进行学习,建立一个从输入空间 X X X 到输出空间 Y Y Y 的映射 f : X → Y f : X \rightarrow Y f:XY.

  1. 测试:学得模型后,使用其进行预测的过程。被预测的样本称为“测试样本
  2. 根据训练数据是否拥有标记信息,学习任务可大致划分为 “监督学习” (分类和回归)和 “无监督学习” (聚类)。
  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值