一些基础术语
-
从数据中学得模型的过程称为学习或训练,这个过程通过执行某个学习算法来完成,训练过程中使用的数据称为训练数据,其中每个样本成为训练样本,训练样本组成的集合称为训练集。
-
如果预测的是离散值,此类学习任务称为分类,如果我们预测的是连续值,此类学习任务称为回归。
-
对西瓜做聚类将训练集中的西瓜分成若干组,每组称为一个簇,这些自动形成的簇可能对应一些潜在的概念划分。在聚类学习过程中,具体能划分哪些簇是我们事先不知道的,而却训练样本中通常不拥有标记信息。
-
根据训练数据是否拥有标记信息,学习任务可大致分为两大类:监督学习 和无监督学习,分类和回归是前者的代表,而聚类则是后者的代表。
-
学得模型适用于新样本的能力,称为泛化能力。
-
“从样例中学习”,被称为归纳学习,要求从训练数据中学得概念,因此也被称为概念学习或概念形成。
举个例子,现在有一批训练数据集,有三个维度,色泽,根蒂,敲声,来判断是否是一个“好瓜”的概念。于是我们学得的将是**“好瓜是某种色泽、某种根蒂、某种敲声的瓜”**,在这里&#x