第一章:绪论
机器学习致力于研究如何通过计算的手段,利用经验来改善系统自身的性能。在计算机系统中,”经验”通常以”数据”形式存在,因此,机器学习所研究的主要内容,是关于在计算机上从数据中产生”模型(model)”的算法,即“学习算法”(learning algorithm)。
若我们预预测的是离散值,例如“好瓜”,“坏瓜”,此类学习任务称为“分类”(classification)。若我们预预测的是连续值,例如瓜的成熟度,此类学习任务称为“回归”(regression)。
对于西瓜来说,我们还可以对西瓜进行“聚类”(clustering),即将训练集中的西瓜分成若干组,每组称为一个“簇”(cluster),这些自动形成的簇可能对应一些潜在的概念划分,例如“本地瓜”等。这样的学习过程有助于我们了解数据内在的规律,能为更深入地分析数据建立基础。需要说明的是,在聚类学习中,“本地瓜”这样的概念我们事先是不知道的,而且学习过程中使用的训练样本通常不拥有标记信息。
监督学习:分类和回归是其代表
无监督学习:聚类是其代表
假设空间:
我们可以把学习过程看做一个在所有假设(hypothesis)组成的空间中进行探索的过程,探索目标是找到与训练集“匹配”(fit)的假设。假设的表示一旦确定,假设空间及其规模大小就确定了。
现实问题中我们常面临很大的假设空间,但学习过程是基于有限样本训练集进行的,因此,可能有多个假设与训练集一致,即存在一个与训练集一致的“假设集合”,称之为“版本空间”(versin space)。
归纳偏好:
若仅有有限的数据,在版本空间中无法继续判断出哪个假设更好。可是,对于一个具体的学习算法而言,它必须产生一个模型。怎么办呢?这时,学习算法本身的“偏好”就会起关键作用。
归纳偏好可以看作学习算法自身的一个可能很庞大的假设空间中对假设进行选择的启发式或“价值观”。
那么,有没有一般性的原则来引导算法确立“正确的”偏好呢?奥卡姆的剃刀(Occam’s razor)是常用原则,即“若有多个假设与观察一致,选择最简单的一个”。但是,关于“简单”的定义,