一、机器学习
机器学习就是把无序的数据转换成有用的数据信息。
二、机器学习的算法划分
机器学习分为监督学习以及无监督学习。
1、监督学习
监督学习适用分类和回归为问题。
监督学习必须要知道预测什么,即目标变量的分类信息
1.1、分类
主要将实例数据划分到合适的分类中。
1.2、回归
用于预测数值型数据
2、监督学习
无监督学习适用于数据没有类别信息,也没有目标值。
无监督学习中,将数据集合分成由类似的对象组成的多个类的过程被称为聚类;将描述数据统计值的过程称之为密度估计,无监督学习也可以减少数据的维度
三、算法的选择
首先考虑适用机器学习算法的目的。如果想要预测目标变量的值,则可以选择监督学习算法,否则可以选择无监督学习算法。然后需要进一步确定目标变量的类型,如果目标变量是离散型,如是/否、1/2/3、A/B/C或者红黄黑等,则可以选择分类器算法;如果是连续型的数值,如0.0~100.00、99~9999,则需要选择回归算法。如果不想预测目标变量的值,则可以选择无监督学习算法。进一步分析是否需要将数据划分为离散的组。如果这是唯一的需求,则使用聚类算法;如果还需要估计数据与每个分组的相似程度,则需要使用密度估计算法。