分类(classification):若我们欲预测的是离散值,如“好瓜”“坏瓜”,此类学习任务成为“分类”。(有导师学习)
回归(regression):若预测的是连续值,如西瓜成熟度0.65,0.78,此类学习任务称为“回归”。(有导师学习)
聚类(clustering):将训练集分成若干组(簇),这些簇可能对应一些潜在的概念划分,如“浅色瓜”“深色瓜”。注:在聚类学习中,“浅色瓜”“深色瓜”这样的概念我们事先是不知道的,且学习过程中使用的训练样本通常不拥有标记信息。
---
学习(learning)/训练(training):从数据中学得模型的过程。
训练数据:训练过程中使用的数据。
训练集:训练样本组成的集合。
真相/真实:关于数据的某种潜在规律自身。学习过程就是为了找出或逼近真相。
---
根据训练数据是否有标记信息,学习任务可分为:监督学习 和 无监督学习。分类、回归是监督学习,聚类是非监督学习。
---
泛化能力:学得模型适用于新样本的能力。
---
归纳偏好:机器学习算法在学习过程中对某种类型假设的偏好,如算法喜欢“好瓜<->(色泽=*)^(根蒂=蜷缩)^(敲声=*)”。注:任何一个有效的学习算法必有其归纳偏好,否则它将被假设空间中假设所迷惑。
参考文献:《机器学习》周志华著