绪论
基本术语
- 数据集(data set):示例(instance)或样本(sample)的集合。样本由反映时间或对象在某方面的表现或性质的属性(attribute)或特征(feature)构成。属性上的取值为属性值(attribute value),属性张成的空间成为属性空间(attribute space)、样本空间(sample space)。把每一个实称为一个特征向量(feature vector)。拥有标记信息的示例称为样例(example)。所有标记构成标记空间(label space)。
- 学习(learning)或训练(training):通过执行某个学习算法来完成。学得模型对应了关于数据的某种潜在的规律,称为假设(hypothesis),学习过程就是为了找出或者逼近真相。
- 分类(classification)、回归(regression):欲预测的是离散值,此时学习任务为分类;欲预测的是连续值,此学习任务为回归。一般地,预测任务是希望通过对训练集 {(x1,y1)(x2,y2),.....,(xm,ym)} 进行学习,建立一个从输入空间 X到输出空间Y的映射f:X→Y。对于二分类任务,通常令 Y={-1,+1}或{0,1};对于多分为任务,|Y|>2 ;对于回归任务,Y=R 。学得模型后,使用其进行预测的过程称为测试(testing),被测试的样本成为测试样本(testing sample)。
- 聚类(clustering):将训练集中的示例分为若干组,每组成为一个簇(cluster)。这些自动形成的簇可能对应一些潜在的概念划分,这样的学习过程有助于我们了解数据内在的规律,能为更深入地分析数据建立基础。
- 监督学习(supervised learning)和无监督学习(unsupervised learning):监督学习的训练数据拥有标记信息,分类和回归是代表;无监督学习不拥有标记信息,聚类是代表。
- 泛化(generalization):机器学习的目的是使得学得的模型更好的适用于新样本,而不是仅仅在训练样本上工作的很好。具有强泛化能力的模型能很好地适用于整个样本空间。尽管训练集通常只是样本空间的一个很小的采样,我们仍希望它能很好地反映出整个样本空间的特性,否者就要很难期望哎训练集上学得的模型在整个样本空间都工作得很好。一般假设样本空间全体服从一个未知分布(distribution) D <script type="math/tex" id="MathJax-Element-8">D</script>,我们获得的每个样本都是独立地从这个分布上采样获得的,即独立同分布(independent and identically distribution)。
假设空间
我们可以把学习过程看作一个在所有假设(hypothesis)组成的空间中进行搜索的过程,搜索目标是找到与训练集匹配(fit)的假设,即能够将训练集中的判断正确的假设。
现实问题中我们常面临很大的假设空间,但学习过程是基于有限样本训练集进行的,因此可能有多个假设与训练集一致,即存在一个与训练集一致的假设集合,称之为版本空间(version space)。
归纳偏好
通过学习得到的模型对应了一个假设空间中的一个假设。当有多个与训练集一致的假设,但与它们对应的模型在面临新样本时却会产生不同的输出。
对于一个具体的学习算法而言,它必须产生一个模型。这时,学习算法本身的偏好就会起到关键作用。机器学习算法在学习过程中对某种类型假设的偏好称为归纳偏好(inductive bias)。任何一个有效的机器学习算法必有其归纳偏好,否则它将被假设空间中看似在训练集上等效的假设所迷惑,而无法产生确定的学习结果。
归纳偏好可看作学习算法自身在一个可能很大的假设空间中对假设进行选择的启发式。
“没有免费的午餐”定理(NFL定理):不同学习算法得出的模型在训练集外的所有样本上的总误差与学习算法无关。对于任意两个学习算法,它们的期望性相同。
NFL定理最重要的寓意是让我们清楚认识到脱离具体问题去谈算法是没有意义的,因为在考虑所有潜在的为题情况下,所有算法都一样好。要讨论算法的相对优劣,必须要针对具体的学习问题。