机器学习相关基本术语

机器学习相关基本术语

@(Machine Learning)

学习/训练(Learning/Training):从数据中学得模型的过程。

学习过程就是找出或者逼近真相

模型也称作学习器(learner)。

标记空间:label space

也称作输出空间。

示例结果称作标记。

学习任务的分类

  • 分类(classification)
  • 回归(regression)

预测的值是离散值时,学习任务叫作分类
预测是追是连续值时,学习任务叫作回归

分类的再次细分: 对于只有两个类别的称作二分类。分别称作正类和反类。

涉及到多个类别,称作多分类。

预测/测试

通过数据集学习到模型后,使用这个模型进行预测的过程称作测试(testing)。

被预测的样本成为测试样本。如学习得到 f 后,对于测试例 x , 可得到预测标记是 y=f(x) .

类比到数学上来,这也可以简单看做是朴素的函数思想。即:一个集合到另一个集合的映射,学习的模型就是一个函数的映射关系。只不过,这个映射关系是我们从数据中学习得到。多数情况下并非精确关系,但足够逼近事实就很好了。

聚类:clustering

将训练数据分为若干组,每个组称之为一个(cluster)。这种分类的依据我们事先并不知道,而是机器通过算法学习自动分类得到。即:学习过程中使用的样本通常不含有标记信息。

监督学习与无监督学习

个人的理解是:监督学习是根据样本的标记信息,知道样本数据的输入对应的确定的输出,从中学习到一个模型,用于预测样本之外的数据。而无监督学习是样本不含标记。

根据训练数据是否拥有标记信息,学习任务分为两类:监督学习 : supervised learning 和 无监督学习:unsupervised learning。

监督学习的代表是分类和回归

无监督学习的代表是聚类

值得强调的是:机器学习的目标是使得学到的模型能够很好的适用于新样本,而不仅仅是在样本上工作得很好。

泛化的理解

学得的模型适用于新样本的能力,被称之为泛化(generalization)。

这其实和我们自己学习知识并运用知识的过程很相似。比如数学的学习,我们很强调举一反三。我们做不到穷尽所有的题库,只能在有限的习题下学习抽象出解决问题的模型,再运用在新的问题上。

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值