机器学习入门(一)--基本术语的了解 下篇

各类数据源于周志华教授的《机器学习》,阅读时囫囵吞枣,记录在此只为帮助理解,具体请自行查看。

例子:西瓜的数据三组

        a、色泽=青绿;瓜蒂=蜷缩;敲声=浊响

        b、色泽=乌黑;瓜蒂=微蜷;敲声=沉闷

        c、色泽=浅白;瓜蒂=硬挺;敲声=清脆

1 基本术语

如果希望学得一个帮助我们判断是不是好瓜的模型,仅有示例数据显然是不够的,要建立关于“预测”(prediction)的模型,我们需要获得训练样本的“结果”信息(例如:“((色泽=青绿;瓜蒂=蜷缩;敲声=浊响),好瓜)”)。

1.1 标记(label)

上段语句中关于示例结果的信息(例如:“好瓜”)就称为“标记”。

1.2 样例(example)

拥有了“标记”信息的示例,则称为“样例”。

注:若将标记看作对象本身的一部分,则“样例”有时也称为“样本”。

1.3 标记空间(label space)/输出空间

一般用\left ( x_{i},y_{i} \right )表示第i个“样例”,其中y_{i}\in Y是示例x_{i}的“标记”,Y是所有“标记”的集合,也称作“标记空间”或“输出空间”。

1.4 分类(classification)

若我们预测的是离散值(例如:“好瓜”,“坏瓜”),这类学习任务称为“分类”。

1.5 回归(regression)

若我们预测的是连续值(例如:西瓜的成熟度0.95、0.37),这类学习任务称为“回归”。

1.6 二分类(binary classification)任务

对只涉及两个类别的任务就称为“二分类”任务,通常称其中一个类为“正类”(positive class),另一个类为“反类”(negative class)。

1.7 多分类(multi-class classification)任务

涉及多个类别的任务就称为“多分类”任务。

1.8 测试(testing)

学得模型后,使用对其进行预测的过程称为“测试”。

1.9 测试样本(testing sample)

“测试”时被预测的样本称为“测试样本”。

注:“测试样本”也称作“测试示例”(testing instance)或“测试例”。

1.10 聚类(clustering)

即将训练集中的西瓜分成若干组,每组称为一个“簇”。

1.11 簇(cluster)

概念见上一条,这些自动形成的簇可能有一些潜在的概念划分(例如:“浅色瓜”、“深色瓜”;或者“本地瓜”、“外地瓜”)。这样的概念事先不知道,且学习过程中使用的“训练样本”通常不拥有“标记”信息。

1.12 监督学习(supervised learning)和无监督学习(unsupervised learning)

根据训练数据是否拥有“标记”信息,学习任务可大致分为两大类:监督学习和无监督学习,“反类”和“回归”是“监督学习”的代表,而聚类”是“无监督学习”的代表。

1.13 泛化(generalization)能力

学得模型适用于新样本的能力称为“泛化能力”。具有强泛化能力的模型能很好的实用于整个样本空间。

1.14 独立同分布(independent and identically distributed,简称i.i.d.)

通常假设样本空间中全体样本服从一个未知“分布”(distribution)D,我们获得的每个样本都是独立地从这个发布上采样获得的,就是“独立同分布”。一般而言,训练样本越多,我们得到的关于D的信息就越多,这样就越有可能通过学习获得具有强泛化能力的模型。

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值