西瓜书笔记系列 - 第1章绪论 - 1.2 基本术语

最新推荐文章于 2024-07-11 13:14:28 发布

FSHelix

最新推荐文章于 2024-07-11 13:14:28 发布

阅读量321

点赞数

分类专栏：读书笔记文章标签：机器学习

本文链接：https://blog.csdn.net/FSHelix/article/details/107860682

版权

读书笔记专栏收录该内容

3 篇文章 0 订阅

订阅专栏

西瓜书笔记系列 - 目录

1.2 基本术语

术语集见文末。因为是边读边做的笔记，且是第一次读这本书的笔记，所以除了零零散散添加的想法以外，做得有点像单纯的转述摘抄了。
　　
　　如这一组关于西瓜的记录：(色泽 = 青绿；根蒂 = 蜷缩；敲声 = 浊响)，(色泽 = 乌黑；根蒂 = 稍蜷；敲声 = 沉闷)，……
　　这些记录是关于某一个事物的描述，称为示例或样本，它们构成的集合称为数据集。其中如"色泽"、“根蒂”、“敲声”，反映了事物在某方面的性质，称为属性或特征，其取值"青绿"、“蜷缩”、“浊响"则称为属性值。以各个属性为坐标轴，可以张开一个多维空间，即样本空间，每个样本都可以用从原点开始的一个向量表示，因而一个样本又称一个特征向量。
　　有时整个数据集也称一个样本，因为它可以看做是对整个样本空间的一个采样，一般通过上下文判断。
　　用 $\mathcal X$ 表示样本空间， $D$ 表示数据集， $m$ 表示样本数， $x_i$ 表示第 $i$ 个样本， $x_{ij}$ 表示 $x_i$ 的第 $j$ 个属性， $d$ 表示属性数，也称维数。则：
　　
　　　　 $D = \{x_1, x_2, ..., x_m\}$
　　　　 $x_i = (x_{i1}, x_{i2}, ..., x_{id})^T$
　　　　　 $x_{i1}; x_{i2}; ...; x_{id})$ （转置）
　　　　 $x_i \in \mathcal X$
　　　　
　　然而，为了对新的样本进行预测，我们还需要这些样本的"结果”，也称标记或标签，如"好瓜"、“坏瓜”。将样本与标记组合起来，如((色泽 = 青绿；根蒂 = 蜷缩；敲声 = 浊响)，好瓜)，就叫样例。若将标记看做事物本身的一部分，则样例有时也称样本，在实际应用中，样本和样例往往不加区分。一般地，用 $x_i, y_i)$ 表示第 $i$ 个样例，其中 $y_i \in \mathcal Y$ 是样本 $x_i$ 的标记， $\mathcal Y$ 是所有标记的集合，也称标记空间或输出空间。于是学得的模型，就可以看作是一个从输入空间 $\mathcal X$ 到输出空间 $\mathcal Y$ 的映射 $\mathcal X \mapsto \mathcal Y$ 。
　　执行学习算法，利用数据产生模型的过程称为学习或训练，其中使用的数据称为训练数据，用集合来表示即是训练集。每个样本称为一个训练样本、训练示例或训练例。数据中可能存在的潜在规律，称为真相或真实，相对地，得到的模型是对潜在规律不断逼近的结果，故称为（对潜在规律的）假设。
　　有了模型，我们便可以输入新样本来得到对其标记的预测。若要预测的是离散值，则学习任务称为分类，若是连续值，则称为回归。分类任务又分二分类和多分类。若用 $|\mathcal Y|$ 表示样本空间中样本的总数，当 $|\mathcal Y| = 2$ ，就是二分类，若 $|\mathcal Y| > 2$ ，就是多分类。对于二分类，通常令 $|\mathcal Y| = \{-1, +1\}$ 或 ${0,1\}$ ，并根据习惯将其中一个标记对应的样本称为正类，另一个称为反类或负类。正类和反类是相对的，并没有明确的规定哪个是正类，哪个是反类。而对于回归任务， $\mathcal Y \in \mathbb R$ 。
　　有了预测，我们就可以对预测进行测试，以验证模型的正确与否，其中使用的样本叫测试样本。用模型 $f$ 对测试样本 $x_i$ 进行预测得到标记 $y_i$ 的过程用公式表达即为： $y_i = f(x_i)$ 。
　　我们还可以对样本做聚类，将训练集中的样本分为若干组，每组称为一个簇。这些簇可能暗示着不同的潜在概念，如对上文的西瓜样本做聚类，算法可能会从数据分布中发现"浅色瓜"、“深色瓜”，甚至"本地瓜"、"外地瓜"的不同。这些概念是事先不知道的，训练用的样本往往也不带有标记信息。
　　根据训练数据是否拥有标记信息，学习任务大致分为两大类，监督学习和无监督学习，分类和回归是前者的代表，而聚类则是后者的代表。
　　需要注意的是，我们希望模型能很好适用于未见样本，而非仅适用于训练样本（过拟合）。模型适用于新样本的能力被称为泛化能力，而较强的泛化能力与合理采样的训练集有密不可分的关系。所以，我们希望训练集能很好地反映样本空间的特性。通常假设样本空间中全体样本服从某个未知分布 $\mathcal D$ ，我们采集的样本全都基于这个分布，且采集的样本间相互独立，即这些样本是独立同分布。一般而言，训练样本越多，得到的关于 $\mathcal D$ 的信息就越多，越有可能得到较强泛化能力的模型。

术语集合：（包括第一章1.1、1.2，有修改及补充。）
　模型(model)
　　=学习器(learner)
　数据集(data set)
　示例(instance)
　　=样本(sample)
　　=特征向量(feature vector)
　属性(attribute)
　　=特征(feature)
　属性值(attribute value)
　维数(dimensionality)
　属性空间(attribute space)
　　=样本空间(sample space)
　　=输入空间(input space)
　学习(learning)
　　=训练(training)
　训练数据(training data)
　　=训练集(training set)
　训练样本(training sample)
　　=训练示例、训练例(training instance)
　假设(hypothesis)
　真相、真实(ground-truth)
　参数(argument)
　参数值(argument value)
　预测(prediction)
　标记、标签(label)
　样例(example)
　标记空间(label space)
　　=输出空间(output space)
　分类(classification)
　回归(regression)
　二分类(binary classification)
　正类(positive class)
　反类、负类(negative class)
　多分类(multi-class classification)
　测试(testing)
　测试数据(testing data)
　　=测试集(testing set)
　测试样本(testing sample)
　　=测试示例、测试例(testing instance)
　聚类(clustering)
　簇(cluster)
　簇划分(cluster division)
　　//原文没有详细说明，仅仅一笔带过，个人认为：
　　//指将训练集划分成不同簇的操作，或指其中的一种方案
　　//与聚类的概念很相似，大概一般聚类也指簇划分，反之亦然
　　//如：“对这个训练集做簇划分”、“这样便构成一种簇划分”
　　//聚类的方法很多，有基于分层的聚类，有基于划分的聚类
　　//有基于密度的聚类，还有基于网格的聚类
　　//簇划分应与基于划分的聚类有较为紧密的联系
　监督学习、有导师学习(supervised learning)
　无监督学习、非监督学习、无导师学习(unsupervised learning)
　未见示例(unseen instance)
　　=未见样本(unseen sample)
　泛化(generalization)
　分布(distribution)
　独立(independence)
　独立同分布(independent and identically distribution, i.i.d.)

FSHelix

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
西瓜书笔记系列 - 第1章绪论 - 1.2 基本术语

1.2 基本术语术语集见文末。因为是边读边做的笔记，且是第一次读这本书的笔记，所以除了零零散散添加的想法以外，做得有点像单纯的转述摘抄了。　　　　如这一组关于西瓜的记录：(色泽 = 青绿；根蒂 = 蜷缩；敲声 = 浊响)，(色泽 = 乌黑；根蒂 = 稍蜷；敲声 = 沉闷)，……　　这些记录是关于某一个事物的描述，称为示例或样本，它们构成的集合称为数据集。其中如"色泽"、“根蒂”、“敲声”，反映了事物在某方面的性质，称为属性或特征，其取值"青绿"、“蜷缩”、“浊响"则称为属性值。以各个属性为坐标轴，可
复制链接

扫一扫