1.监督学习和无监督学习
监督学习:对具有概念标记(分类)的训练样本进行学习,以尽可能对训练样本集外的数据进行标记(分类)预测。这里,所有的标记(分类)是已知的。
无监督学习:对没有概念标记(分类)的训练样本进行学习,以发现训练样本集中的结构性知识。这里,所有的标记(分类)是未知的。聚类就是典型的无监督学习
2.机器学习的算法选择
如果想要预测目标变量的值,可以选择监督学习算法,再进一步确定目标变量类型,如果目标变量是离散型,如是/否、1/2/3等,可以选择分类算法,如果是连续型的数值,则需要选择回归算法。
如果不想预测目标变量的值,可以选择无监督学习算法,进一步分析是否需要将数据划分为离散的组。如果这是唯一的需求,则使用聚类算法,如果还需要估计数据与每个分组的相似程度,则需要使用密度估计算法。
监督学习一般使用两种类型的目标变量,标称型和数值型。标称型只在有限目标集中取值,数值型可以从无限的数值集合中取值。