1.2 基本术语

 


前言:

这一节让我找到了数据集的较为精确且易懂的解释


第1章 绪 论

1.2 基本术语

在学习机器学习之前,了解一些常见的基本术语是至关重要的。这些术语不仅帮助我们理解机器学习的理论基础,还为实际应用打下坚实的概念框架。下面,我们将介绍一些关键的术语及其含义。

样本与数据集

在机器学习中,“样本”是一个非常重要的概念。有时,整个数据集也会被称为“样本”,因为它可以被看作是从样本空间中的一个采样。我们可以通过上下文判断出“样本”是指单个示例,还是指整个数据集。数据集中包含的每个单独的数据点,我们称之为“示例”或“样本”。


我的看法:


我从这里收获不少,从这里我就真正开始理解大师说的数据集是什么意思了,其实在我看来来,你只要真正理解了机器学习的本质就能很好的知道为什么需要数据集了,因为设计好算法后要学习,而图片的信息是或者数据是杂乱无章的机器无法自动识别,所以我们首先需要给图片或者数据给我们需要训练用到的属性进行标注分类。而这些喂给模型的就是数据集了。


例如,当我们收集了一组西瓜的数据时,每条记录可能是这样的形式:

  • (色泽=青绿;根蒂=蜷缩;敲声=浊响)
  • (色泽=乌黑;根蒂=稍蜷;敲声=沉闷)
  • (色泽=浅白;根蒂=硬挺;敲声=清脆)

每对括号内是一条记录,其中“=”表示属性的取值。这些记录的集合就构成了一个“数据集”(data set)。每条记录描述了一个事件或对象(这里是一个西瓜),而这些记录本身称为“示例”(instance)或“样本”(sample)。

属性与特征

在描述数据时,我们会使用到“属性”(attribute)或“特征”(feature)这些术语。它们反映了事件或对象某方面的表现或性质。以西瓜为例,“色泽”“根蒂”“敲声”就是不同的属性,而每个属性上的具体取值,例如“青绿”“乌黑”,则称为“属性值”(attribute value)。

样本空间与特征向量

属性上的取值组成了一个“属性空间”(attribute space),也称为“样本空间”(sample space)或“输入空间”(input space)。我们可以将这些属性视为坐标轴,例如将“色泽”“根蒂”“敲声”作为三个坐标轴,它们张成了一个用于描述西瓜的三维空间。在这个空间中,每个西瓜都有一个唯一的坐标,这些坐标值构成了一个“特征向量”(feature vector)。

数据集与维度

假设我们有一个包含 m 个示例的数据集 D={x1,x2,...,xm}D = \{x_1, x_2, ..., x_m\}D={x1​,x2​,...,xm​},其中每个示例 xix_ixi​ 都由 d 个属性来描述。比如,上面的西瓜数据使用了 3 个属性,所以每个示例 xi=(xi1,xi2,...,xid)x_i = (x_{i1}, x_{i2}, ..., x_{id})xi​=(xi1​,xi2​,...,xid​) 是一个 d 维向量,属于 d 维样本空间 XXX 中的一个点。

在这个 d 维样本空间中,每个示例的维度 d 就是该样本的“维数”(dimensionality)。例如,对于第三个西瓜,在第2个属性上的取值是“硬挺”,则它的第二个维度就是这个取值。

学习与训练

从数据中得出模型的过程称为“学习”(learning)或“训练”(training)。这一过程是通过执行某个“学习算法”(learning algorithm)来实现的。训练所使用的数据被称为“训练数据”(training data),而其中的每个样本叫作“训练样本”(training sample)。由所有训练样本构成的集合叫做“训练集”(training set)。

学习的结果是模型,该模型代表了数据中的某种潜在规律,也被称为“假设”(hypothesis)。这种潜在规律在现实世界中通常被称为“真相”或“真实”(ground-truth),学习过程的目标就是找出或逼近这个真相。

标记与样例

如果我们希望学到一个能够帮助我们判断西瓜是否是好瓜的模型,仅仅依靠前面的属性数据是不够的。我们还需要知道每个西瓜的实际情况,比如它是好瓜还是坏瓜。这种关于结果的信息,称为“标记”(label)。当示例拥有标记信息时,这个示例就称为“样例”(example)。

例如,训练数据中可以包含以下形式的记录:

  • ((色泽=青绿;根蒂=蜷缩;敲声=浊响), 好瓜) 在这个例子中,"好瓜" 就是该示例的标记。拥有了这些标记信息,模型才能学会对新数据进行预测。


快速理解:

第1章 绪论

1.2 基本术语

在机器学习中,我们常常会接触到一些重要的术语和概念,这些术语构成了机器学习的基础。理解它们有助于我们深入掌握学习算法的工作原理以及模型的训练和应用。

数据集与样本

在机器学习中,数据集(data set)是包含多个样本(sample)或示例(instance)的集合。每个样本记录了一个事件或对象的属性,反映了这些属性在特定情况下的取值。比如,我们可以收集关于西瓜的数据,包括色泽、根蒂和敲声等属性,每条记录(例如:色泽=青绿;根蒂=蜷缩;敲声=浊响)代表一个样本。这些样本构成了我们的数据集。

属性与特征

属性(attribute)或特征(feature)是用于描述样本的一些表现或性质。例如,在描述西瓜时,色泽、根蒂和敲声就是不同的属性。每个属性都可以有不同的取值,称为属性值(attribute value)。例如,色泽可以是青绿、乌黑或浅白,根蒂可以是蜷缩、硬挺等。

属性构成的空间称为属性空间(attribute space)或样本空间(sample space)。通过将各属性作为坐标轴,可以构建一个用于描述对象的高维空间。在这个空间中,每个样本对应于一个坐标向量,我们也称样本为特征向量(feature vector)。

样本维度

每个样本的属性数量决定了其维度(dimensionality)。例如,如果我们用色泽、根蒂和敲声三个属性描述西瓜数据,则样本空间的维度为3。维度越高,模型所需要处理的特征信息就越多,进而影响模型的复杂度。

训练与学习

从数据中学得模型的过程被称为学习(learning)或训练(training)。通过执行某个学习算法(learning algorithm),机器可以从数据中提取潜在规律,并形成可用于预测或分类的模型。训练过程中使用的数据称为训练数据(training data),其中每个样本称为训练样本(training sample)。所有训练样本组成的集合则称为训练集(training set)。

学得的模型代表了数据中的某种潜在规律,因此也常被称为假设(hypothesis)。但这个假设是否准确,还需要通过测试集来验证其性能。

标记与样例

在机器学习中,标记(label)是描述样本的某一目标输出。例如,关于西瓜的某条记录可以附带一个标记,表明它是“好瓜”还是“坏瓜”。带有标记的样本被称为样例(example),而没有标记的样本则只能用于无监督学习任务。

监督学习与无监督学习

根据是否有标记信息,学习任务可分为两类:监督学习(supervised learning)和无监督学习(unsupervised learning)。分类和回归任务是监督学习的代表,而聚类(clustering)是无监督学习的典型任务。

在监督学习中,我们有训练样本的输入和对应的输出标记,模型通过学习这些数据来预测新样本的输出。在无监督学习中,模型只根据输入样本自动发现数据的结构或分组。

分类与回归

当我们希望预测的目标是离散的类别时,学习任务称为分类(classification)。例如,判断一个西瓜是“好瓜”还是“坏瓜”就是一个分类任务。如果目标是连续值,如预测西瓜的成熟度(例如0.95或0.37),则这种学习任务称为回归(regression)。

对于只有两个类别的分类任务,称为二分类(binary classification),通常将其中一个类称为正类(positive class),另一个类为反类(negative class)。对于涉及多个类别的任务,则称为多分类(multi-class classification)。

测试与泛化能力

当模型通过训练集学习后,在新数据上的表现决定了它的泛化(generalization)能力。一个好的模型不仅能够在训练数据上表现出色,还应能够对未见样本(unseen instances)进行准确预测。泛化能力强的模型能够处理整个样本空间的样本,而不仅仅是训练集中的样本。

模型的测试过程通过使用测试数据(testing data)来进行评估。被预测的样本称为测试样本(testing sample),测试结果则用来验证模型的准确性和泛化能力。

样本空间与分布假设

在实际任务中,样本空间往往非常大。例如,一个有20个属性,每个属性有10种可能取值的样本空间的规模就可以达到102010^{20}1020。通常假设样本空间中的样本来自某个未知的分布(distribution)——即独立同分布假设(i.i.d.),这意味着每个样本是独立地从分布中抽取出来的。随着训练样本的增加,我们对这个分布的认识也会逐渐增强,从而更有可能学得具有强泛化能力的模型。



数学版

第1章 绪论

1.2 基本术语

在机器学习领域,有许多基本术语需要我们了解和掌握。理解这些术语有助于更深入地学习和应用机器学习方法。以下,我们将对这些基本概念进行详细介绍。

数据集与样本

在机器学习中,我们需要处理的数据通常被称为数据集(data set)。有时,整个数据集也被称为一个“样本”,因为它可以被视为对样本空间的一个采样。通过上下文可以判断“样本”是指单个实例还是整个数据集。

每条记录(例如 (色泽=青绿;根蒂=蜷缩;敲声=浊响))称为一个实例(instance)或样本(sample),反映了一个事件或对象(如一个西瓜)的描述。

属性与特征向量

描述事件或对象某一方面的性质的事项,称为属性(attribute)或特征(feature),例如“色泽”、“根蒂”、“敲声”等。属性上的取值(如“青绿”、“乌黑”)称为属性值(attribute value)。

属性张成的空间称为属性空间(attribute space)、样本空间(sample space)或输入空间(input space)。例如,将“色泽”、“根蒂”、“敲声”作为坐标轴,可以构建一个用于描述西瓜的三维空间,每个西瓜都可以在这个空间中找到自己的坐标位置。因此,一个实例也被称为一个特征向量(feature vector)。

一般地,令 D={x1,x2,…,xm}D = \{ x_1, x_2, \dots, x_m \}D={x1​,x2​,…,xm​} 表示包含 mmm 个实例的数据集,每个实例由 ddd 个属性描述,则每个实例 xi=(xi1,xi2,…,xid)x_i = (x_{i1}, x_{i2}, \dots, x_{id})xi​=(xi1​,xi2​,…,xid​) 是 ddd 维样本空间 XXX 中的一个向量,其中 xijx_{ij}xij​ 是 xix_ixi​ 在第 jjj 个属性上的取值。ddd 被称为样本 xix_ixi​ 的维数(dimensionality)。

学习与训练

从数据中学习模型的过程称为学习(learning)或训练(training),这个过程通过执行某个学习算法来完成。训练过程中使用的数据称为训练数据(training data),其中每个样本称为一个训练样本(training sample),训练样本组成的集合称为训练集(training set)。

学得的模型对应了关于数据的某种潜在规律,因此也称为假设(hypothesis);这种潜在规律本身,则称为真相真实(ground-truth)。学习过程的目标就是找出或逼近真相。本书有时将模型称为学习器(learner),可以视为学习算法在给定数据和参数空间上的实例化。

标记与样例

为了建立能够预测的新模型,我们需要获取训练样本的结果信息,例如 “好瓜” 或 “坏瓜”。这里关于实例结果的信息称为标记(label);拥有标记信息的实例称为样例(example)。需要注意的是,我们将“label”译为“标记”而非“标签”,是考虑到英文中“label”既可用作名词、也可用作动词。

一般地,用 (xi,yi)(x_i, y_i)(xi​,yi​) 表示第 iii 个样例,其中 yi∈Yy_i \in Yyi​∈Y 是实例 xix_ixi​ 的标记,YYY 是所有标记的集合,称为标记空间(label space)或输出空间(output space)。

分类、回归与聚类

如果我们希望预测的是离散值(例如“好瓜”、“坏瓜”),这样的学习任务称为分类(classification)。如果预测的是连续值(例如西瓜的成熟度 0.95、0.37),这样的任务称为回归(regression)。

对于只涉及两个类别的二分类(binary classification)任务,通常称其中一个类为正类(positive class),另一个类为反类(negative class)。涉及多个类别时,则称为多分类(multi-class classification)任务。

我们还可以对西瓜进行聚类(clustering),即将训练集中的西瓜分成若干组,每组称为一个(cluster)。这些自动形成的簇可能对应一些潜在的概念划分,例如“浅色瓜”、“深色瓜”甚至“本地瓜”、“外地瓜”。这样的学习过程有助于我们了解数据的内在规律,为更深入地分析数据建立基础。在聚类学习中,这些概念我们事先并不知道,而且学习过程中使用的训练样本通常不具备标记信息。

监督学习与无监督学习

根据训练数据是否拥有标记信息,学习任务可以大致划分为两大类:监督学习(supervised learning)和无监督学习(unsupervised learning)。分类和回归是前者的代表,而聚类则是后者的代表。

泛化能力

需要注意的是,机器学习的目标是使学得的模型能够很好地适用于新样本,而不仅仅是在训练样本上表现良好。即使对于聚类这样的无监督学习任务,我们也希望学得的簇划分能够适用于未在训练集中出现的样本。

学得模型适用于新样本的能力称为泛化(generalization)能力。具有强泛化能力的模型能够很好地适用于整个样本空间。尽管训练集通常只是样本空间的一个很小的采样,我们仍希望它能够很好地反映出样本空间的特性,否则就很难期望在训练集上学得的模型能在整个样本空间上都表现良好。

独立同分布假设

通常,我们假设样本空间中的全体样本服从一个未知的分布(distribution) DDD,我们获得的每个样本都是独立地从这个分布上采样获得的,即独立同分布(independent and identically distributed,简称 i.i.d.)。一般而言,训练样本越多,我们得到的关于 DDD 的信息就越多,这样就越有可能通过学习获得具有强泛化能力的模型。

 


总结

机器学习的核心在于通过数据学习出模型,这个模型帮助我们在新情况下做出预测。通过理解样本、数据集、属性、特征等基本术语,我们能够更好地理解学习算法是如何从数据中提取信息,并将其转化为对现实问题的解决方案。在接下来的学习中,这些概念将为我们奠定坚实的基础。

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

夏驰和徐策

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值