机器学习就是把无序的数据转换成有用的信息。机器学习一般包括训练集、学习算法、目标变量、假设函数。目标变量是机器学习的预测结果。如图1所示,在训练集上结合目标变量,利用学习算法不断学习,使得假设函数h能够解释(x,y)之间的关系。机器学习中最重要的就是如何确定假设函数。
图1
机器学习的算法分类如图2所示。
图2 机器学习的分类
在使用机器学习算法中,如果想要预测变量的值,则可以选择监督学习算法。否则可以选择无监督学习算法。确定为监督学习算法后,如果要进一步确定目标变量的类型,可以选择分类器算法(目标变量是离散型)或者回归算法(目标变量是连续的)。如果不想预测目标变量的值,则可以选择无监督学习算法。进一步分析是否需要将数据划分为离散的组。如果这是唯一的需求,则使用聚类算法;如果还需要估计数据与每个分组的相似程度,则需要使用密度估计算法。