1.2 基本术语
术语集见文末。因为是边读边做的笔记,且是第一次读这本书的笔记,所以除了零零散散添加的想法以外,做得有点像单纯的转述摘抄了。
如这一组关于西瓜的记录:(色泽 = 青绿;根蒂 = 蜷缩;敲声 = 浊响),(色泽 = 乌黑;根蒂 = 稍蜷;敲声 = 沉闷),……
这些记录是关于某一个事物的描述,称为示例或样本,它们构成的集合称为数据集。其中如"色泽"、“根蒂”、“敲声”,反映了事物在某方面的性质,称为属性或特征,其取值"青绿"、“蜷缩”、“浊响"则称为属性值。以各个属性为坐标轴,可以张开一个多维空间,即样本空间,每个样本都可以用从原点开始的一个向量表示,因而一个样本又称一个特征向量。
有时整个数据集也称一个样本,因为它可以看做是对整个样本空间的一个采样,一般通过上下文判断。
用
X
\mathcal X
X 表示样本空间,
D
D
D 表示数据集,
m
m
m 表示样本数,
x
i
x_i
xi 表示第
i
i
i 个样本,
x
i
j
x_{ij}
xij 表示
x
i
x_i
xi 的第
j
j
j 个属性,
d
d
d 表示属性数,也称维数。则:
D
=
{
x
1
,
x
2
,
.
.
.
,
x
m
}
D = \{x_1, x_2, ..., x_m\}
D={x1,x2,...,xm}
x
i
=
(
x
i
1
,
x
i
2
,
.
.
.
,
x
i
d
)
T
x_i = (x_{i1}, x_{i2}, ..., x_{id})^T
xi=(xi1,xi2,...,xid)T
=
(
x
i
1
;
x
i
2
;
.
.
.
;
x
i
d
)
= (x_{i1}; x_{i2}; ...; x_{id})
=(xi1;xi2;...;xid) (转置)
x
i
∈
X
x_i \in \mathcal X
xi∈X
然而,为了对新的样本进行预测,我们还需要这些样本的"结果”,也称标记或标签,如"好瓜"、“坏瓜”。将样本与标记组合起来,如((色泽 = 青绿;根蒂 = 蜷缩;敲声 = 浊响),好瓜),就叫样例。若将标记看做事物本身的一部分,则样例有时也称样本,在实际应用中,样本和样例往往不加区分。一般地,用
(
x
i
,
y
i
)
(x_i, y_i)
(xi,yi) 表示第
i
i
i 个样例, 其中
y
i
∈
Y
y_i \in \mathcal Y
yi∈Y 是样本
x
i
x_i
xi 的标记,
Y
\mathcal Y
Y 是所有标记的集合,也称标记空间或输出空间。于是学得的模型,就可以看作是一个从输入空间
X
\mathcal X
X 到输出空间
Y
\mathcal Y
Y 的映射
f
:
X
↦
Y
f : \mathcal X \mapsto \mathcal Y
f:X↦Y。
执行学习算法,利用数据产生模型的过程称为学习或训练,其中使用的数据称为训练数据,用集合来表示即是训练集。每个样本称为一个训练样本、训练示例或训练例。数据中可能存在的潜在规律,称为真相或真实,相对地,得到的模型是对潜在规律不断逼近的结果,故称为(对潜在规律的)假设。
有了模型,我们便可以输入新样本来得到对其标记的预测。若要预测的是离散值,则学习任务称为分类,若是连续值,则称为回归。分类任务又分二分类和多分类。若用
∣
Y
∣
|\mathcal Y|
∣Y∣ 表示样本空间中样本的总数,当
∣
Y
∣
=
2
|\mathcal Y| = 2
∣Y∣=2,就是二分类,若
∣
Y
∣
>
2
|\mathcal Y| > 2
∣Y∣>2,就是多分类。对于二分类,通常令
∣
Y
∣
=
{
−
1
,
+
1
}
|\mathcal Y| = \{-1, +1\}
∣Y∣={−1,+1} 或
{
0
,
1
}
\{0,1\}
{0,1},并根据习惯将其中一个标记对应的样本称为正类,另一个称为反类或负类。正类和反类是相对的,并没有明确的规定哪个是正类,哪个是反类。而对于回归任务,
Y
∈
R
\mathcal Y \in \mathbb R
Y∈R。
有了预测,我们就可以对预测进行测试,以验证模型的正确与否,其中使用的样本叫测试样本。用模型
f
f
f 对测试样本
x
i
x_i
xi 进行预测得到标记
y
i
y_i
yi 的过程用公式表达即为:
y
i
=
f
(
x
i
)
y_i = f(x_i)
yi=f(xi) 。
我们还可以对样本做聚类,将训练集中的样本分为若干组,每组称为一个簇。这些簇可能暗示着不同的潜在概念,如对上文的西瓜样本做聚类,算法可能会从数据分布中发现"浅色瓜"、“深色瓜”,甚至"本地瓜"、"外地瓜"的不同。这些概念是事先不知道的,训练用的样本往往也不带有标记信息。
根据训练数据是否拥有标记信息,学习任务大致分为两大类,监督学习和无监督学习,分类和回归是前者的代表,而聚类则是后者的代表。
需要注意的是,我们希望模型能很好适用于未见样本,而非仅适用于训练样本(过拟合)。模型适用于新样本的能力被称为泛化能力,而较强的泛化能力与合理采样的训练集有密不可分的关系。所以,我们希望训练集能很好地反映样本空间的特性。通常假设样本空间中全体样本服从某个未知分布
D
\mathcal D
D,我们采集的样本全都基于这个分布,且采集的样本间相互独立,即这些样本是独立同分布。一般而言, 训练样本越多,得到的关于
D
\mathcal D
D 的信息就越多,越有可能得到较强泛化能力的模型。
术语集合:(包括第一章1.1、1.2,有修改及补充。)
模型(model)
=学习器(learner)
数据集(data set)
示例(instance)
=样本(sample)
=特征向量(feature vector)
属性(attribute)
=特征(feature)
属性值(attribute value)
维数(dimensionality)
属性空间(attribute space)
=样本空间(sample space)
=输入空间(input space)
学习(learning)
=训练(training)
训练数据(training data)
=训练集(training set)
训练样本(training sample)
=训练示例、训练例(training instance)
假设(hypothesis)
真相、真实(ground-truth)
参数(argument)
参数值(argument value)
预测(prediction)
标记、标签(label)
样例(example)
标记空间(label space)
=输出空间(output space)
分类(classification)
回归(regression)
二分类(binary classification)
正类(positive class)
反类、负类(negative class)
多分类(multi-class classification)
测试(testing)
测试数据(testing data)
=测试集(testing set)
测试样本(testing sample)
=测试示例、测试例(testing instance)
聚类(clustering)
簇(cluster)
簇划分(cluster division)
//原文没有详细说明,仅仅一笔带过,个人认为:
//指将训练集划分成不同簇的操作,或指其中的一种方案
//与聚类的概念很相似,大概一般聚类也指簇划分,反之亦然
//如:“对这个训练集做簇划分”、“这样便构成一种簇划分”
//聚类的方法很多,有基于分层的聚类,有基于划分的聚类
//有基于密度的聚类,还有基于网格的聚类
//簇划分应与基于划分的聚类有较为紧密的联系
监督学习、有导师学习(supervised learning)
无监督学习、非监督学习、无导师学习(unsupervised learning)
未见示例(unseen instance)
=未见样本(unseen sample)
泛化(generalization)
分布(distribution)
独立(independence)
独立同分布(independent and identically distribution, i.i.d.)