机器学习是关于在计算机上从数据中产生模型
(mode)的算法,即学习算法
(learning algorithm)
学得模型对应了关于数据的某种潜在的规律,因此亦称为假设
(hypothesis);这种潜在规律自身,则成为真相
或真实
(ground-truth);模型也可称为学习器
(learner)
标记
(label)是输出结果信息,所有标记的集合为标记空间
或输出空间
(label space);若我们预测值是离散的,称为分类
(classification);若预测值是连续值,则称此类学习任务为回归
(regression).
根据训练数据是否拥有标记信息,可大致分为两大类:监督学习
(supervised learning)和无监督学习
(unsupervised learning).分类和回归是前者代表。聚类
(clustering)为后者代表,聚类指的的是将训练集中的西瓜分成若干组,每组称为一个簇
(cluster),在学习过程中使用的训练样本通常不拥有标记信息。
学得模型适应新样本的能力,称为泛化
能力。通常假设样本空间中全体样本服从一个未知分布
(distribution)D,我们获得的每个样本都是独立地从这个分布上采样获得地,即独立同分布
(independent and identically distributed,简称i.i.d).训练样本越多,得到地关于D信息越多,越有可能获得地具有强泛化能力地模型。
我们可以把学习过程看作一个在所有假设(hypothesis)组成地空间中进行搜索地过程,搜索目标是找到与训练集匹配
(fit)的假设,即能将训练集中判断正确的假设。可能有多个假设与训练集一致,即存在着一个与训练集一致的假设集合
,我们称之为版本空间
(version space).
版本空间中选出合适的假设,便引入了归纳偏好,即机器学习在学习过程中对某种类型假设的偏好,称为归纳偏好
(inductive bias).奥卡姆剃刀
(Occam’s razor)是一种常见的、自然科学研究中最基本的原则,即若有多个假设与观察一致,则选择最简单的那个。事实上,归纳偏好对应了学习算法本身多做出的关于"什么样的模型更好"的假设。在具体的现实的问题中,这个假设是否成立,即算法的归纳偏好是否与问题本身匹配,大多时候直接决定了算法能否取得好的性能。