机器学习 第一章学习

1.1 引言

  • 机器学习:致力于研究如何通过计算的手段,利用经验来改善系统自身的性能。

  • 研究内容: 在计算机上从数据产生“模型”的算法,即“学习算法”。“模型”泛指从数据中学得的结果。

1.2 相关术语

  • 数据集(data set): 数据的集合。

  • 样本(sample)/ 示例(instance):每条记录是关于一个事件或对象的描述。

  • 属性(attribute)/ 特征(feature):事件或对象在某方面的表现或性质。属性的取值叫做属性值(attribute value),属性张成的空间叫做属性空间(attribute space)、样本空间(sample space)或输入空间。

  • 特征向量(feature vector):示例的别名。

  • 学习(learning)/ 训练(training): 从数据中学得模型的过程。

  • 训练过程中使用的数据称为“训练数据”(training data),其中每个样本称为一个“训练样本”(training sample),训练样本组成的集合称为“训练集”*(training set)。

  • 假设(hypothesis):学得模型对应了关于数据的某种潜在的规律,这种潜在规律自身,称为“真相”或“真实”(ground-truth)。

  • 标记(lable): 训练样本的结果的信息。

  • 样例(example): 拥有了标记信息的示例。
    一般用(xi, yi)表示第 i 个样例, yi 表示示例 xi 的标记

  • 分类(classification): 预测的是离散值

  • 回归(regression):预测的是连续值。

  • 聚类(clustering):将训练集分成若干组,每组称为一个簇(cluster)。这样的学习过程有助于我们了解数据内在的规律,能为更深入地分析数据建立基础。在聚类学习中,这些簇我们事先是不知道的。

  • 监督学习(supervised learning):代表有分类和回归。

  • 无监督学习(unsupervised learning): 代表是聚类学习。

  • 泛化(generalization)能力: 学得的模型适用于新样本的能力。

  • 独立同分布(independent and identically distributed,简称 i.i.d.):通常假设样本空间中全部样本服从一个未知分布(distribution)D,我们获得的每个样本都是独立地从这个分布上采样获得的,即独立同分布。一般而言,训练的样本越多,我们得到的关于D的信息越多,就越有可能用过学习获得泛化能力强的模型。

(2018年11月19日21:06:09)

1.3 假设空间

转载于:https://juejin.im/post/5bf2aa295188252bf829abad

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值