示例或样本:每条记录都是关于一个事件或对象的描述,反映事件或对象在某方面的表现或性质的事项。
泛化:学得模型适用于新样本的能力。
通过样本以及样本的“结果”信息建立预测,如一个西瓜((色泽=青绿;根蒂=蜷缩;敲声=浊响),好瓜),其中好瓜就是样本的“结果”,称为标记。
分类:预测的是离散值。
回归:预测的是连续值。
聚类:在学习过程中使用的训练样本通常不拥有标记信息。将训练集的示例分为若干组,每组称为簇,这些自动形成的簇对应一些潜在的概念划分。
监督学习:训练数据拥有标记信息。
无监督学习:训练数据不拥有标记信息。
归纳:从具体的事实归结出一般性规律
演绎:从基础原理推演出具体状况
版本空间或假设集合:现实问题中我们常面临很大的假设空间,但学习过程是基于有限样本训练集进行的,因此,可能有多个假设与训练集一致,即存在着一个与训练集一致的“假设集合”,即版本空间。
归纳偏好:在学习过程中对某种类型假设的偏好。
奥卡姆剃刀:若有多个假设与观察一致,则选最简单的那个。