各类数据源于周志华教授的《机器学习》,阅读时囫囵吞枣,记录在此只为帮助理解,具体请自行查看。
例子:西瓜的数据三组
a、色泽=青绿;瓜蒂=蜷缩;敲声=浊响
b、色泽=乌黑;瓜蒂=微蜷;敲声=沉闷
c、色泽=浅白;瓜蒂=硬挺;敲声=清脆
1 基本术语
如果希望学得一个帮助我们判断是不是好瓜的模型,仅有示例数据显然是不够的,要建立关于“预测”(prediction)的模型,我们需要获得训练样本的“结果”信息(例如:“((色泽=青绿;瓜蒂=蜷缩;敲声=浊响),好瓜)”)。
1.1 标记(label)
上段语句中关于示例结果的信息(例如:“好瓜”)就称为“标记”。
1.2 样例(example)
拥有了“标记”信息的示例,则称为“样例”。
注:若将标记看作对象本身的一部分,则“样例”有时也称为“样本”。
1.3 标记空间(label space)/输出空间
一般用表示第i个“样例”,其中是示例的“标记”,Y是所有“标记”的集合,也称作“标记空间”或“输出空间”。
1.4 分类(classification)
若我们预测的是离散值(例如:“好瓜”,“坏瓜”),这类学习任务称为“分类”。
1.5 回归(regression)
若我们预测的是连续值(例如:西瓜的成熟度0.95、0.37),这类学习任务称为“回归”。
1.6 二分类(binary classification)任务
对只涉及两个类别的任务就称为“二分类”任务,通常称其中一个类为“正类”(positive class),另一个类为“反类”(negative class)。
1.7 多分类(multi-class classification)任务
涉及多个类别的任务就称为“多分类”任务。
1.8 测试(testing)
学得模型后,使用对其进行预测的过程称为“测试”。
1.9 测试样本(testing sample)
“测试”时被预测的样本称为“测试样本”。
注:“测试样本”也称作“测试示例”(testing instance)或“测试例”。
1.10 聚类(clustering)
即将训练集中的西瓜分成若干组,每组称为一个“簇”。
1.11 簇(cluster)
概念见上一条,这些自动形成的簇可能有一些潜在的概念划分(例如:“浅色瓜”、“深色瓜”;或者“本地瓜”、“外地瓜”)。这样的概念事先不知道,且学习过程中使用的“训练样本”通常不拥有“标记”信息。
1.12 监督学习(supervised learning)和无监督学习(unsupervised learning)
根据训练数据是否拥有“标记”信息,学习任务可大致分为两大类:监督学习和无监督学习,“反类”和“回归”是“监督学习”的代表,而聚类”是“无监督学习”的代表。
1.13 泛化(generalization)能力
学得模型适用于新样本的能力称为“泛化能力”。具有强泛化能力的模型能很好的实用于整个样本空间。
1.14 独立同分布(independent and identically distributed,简称i.i.d.)
通常假设样本空间中全体样本服从一个未知“分布”(distribution)D,我们获得的每个样本都是独立地从这个发布上采样获得的,就是“独立同分布”。一般而言,训练样本越多,我们得到的关于D的信息就越多,这样就越有可能通过学习获得具有强泛化能力的模型。