第1章 :绪论
1.2基本术语
一批西瓜的数据:
(色泽=青绿;根蒂=蜷缩;敲声=浊响),
(色泽=乌黑;根蒂:稍蜷;敲声=沉 闷),
(色泽=浅白;根蒂
硬挺;敲声=清脆),
……
每对括号内代表一条记录, “=”意思是"取值为"。每条记录是关于一个事件或对象(这里是一个西瓜)的描述,称为一个"示例" (instance) 或"样本" (sample),用以反映事件或对象在某方面的表现或性质的事项。
例如
"属性" (attribute) 或"特征" (feature) :"色泽";"根蒂" ;"敲声"。
"属性值" (attribute value)即属性上的取值:"青绿"; "乌黑";"浅白“。
这组记录的
集合
称为一个"数据集"
(data
set)。
以"色泽" "根蒂" "敲声"作为三个坐标轴,把它们张成
一个用于描述西瓜的三维空间,每个西瓜都可在这个空间中找到自己的坐标位置,这由属性张成的空间称为"属性空间" (attribute space) 、"样本空间" (sample space) 或"输入空间".
由于空间中的每个点对应一个坐标向量,因此我们也把
一个示例称为一个
"特征向量" (feature vector)。
D = {
x1,x2...xm}, 表示包含 m个示例的数据集,
每个示例由
d
个属性描述(例如上面的西瓜数据使用了3
个属性),
每个示例 xi = (xi1; xi2; . . . ; xid) 是
d
维样本空间 X 中的一个向量,xi∈ X ;.
其中 xij 是xi在第 j个属性上的取值(例如上述第3个西瓜在第2
个属性上的值是"硬挺" ),
d
称为样本xi的"维数" (dimensionality)。
通过执行某个学习算法从数据中学得模型的过程称为"学习" (lear
ning)
或"训练"
(training)。
训练过程中使用的数据称为"训练数据" (training data),
其中每个样本称为一个"训练
样本"
(training sample)。
训练样本组成的集合称为"训练集"
(training
set)。
学得模型对应了关于数据的某种潜在的规律,因此亦称"假设" (hypothesis);
这种潜在规律自身,则称为"真相"或"真实" (ground-truth)
,学习过程就是为了找出或逼近真相。
本书有时将
模型
称为"学习器" (learner)
,可看作
学习算法在给定数据和参数空间上的实例化。
要建立这样的关于"预测"
(prediction) 模型,我们需获得训练样本的 "结果" 信息,
例如" ((色泽:青绿;根蒂=蜷缩; 敲声=浊响),好瓜)" .
这里关于示例结果的信息,"好瓜",称为"标记" (label);
拥有了标记信息的示例,则称为"样例" (example)。
(xi,yi) 表示第i个样例其中 yi∈ Y是示例 xi 的标记,
Y是所有标记的集合,亦称"标记空间" (label space)或"输出空间
若我们欲预测的是离散值,例如"好瓜"
"坏瓜",此类学习任务称为 "分类" (classification);
若欲预测的是连续值,例如西瓜成熟度
0.95 0.37,此类学习任务称为"回归" (regression).
对只涉及两个类别的"二分类" (binary
classification)
任务,通常称其中一个类为
"正
类"
(positive
class),另一个类为"反类" (negative
class);
涉及多个类别时,则称为"多分类" (multi-class classification)任务。
一般地,预测任务是希望通过对训练集{(
x
1,
y
1) , (
x
2 ,
y
2) ,..., (
x
m,
y
m)} 进行学习,
建立一个从输入空间 X