机器学习的主要任务是将实例数据划分到合适的分类中,机器学习的另一任务是回归,主要用于预测数值型数据。
分类和回归属于监督学习,之所以称之为监督学习,是因为这类算法必须知道预测什么,即目标变量的分类信息。与监督学习相对应的是无监督学习,此时数据没有类别信息,也不会给定目标值。在无监督学习中,将数据集合分成由类似的对象组成的多个类的过程被称为聚类;将寻找描述数据统计值的过程称为密度估计。此外无监督学习还可以减少数据特征的维度,以便我们可以使用二维或三维图形更加直观地展示数据信息。(简言之,个人觉得,监督学习就是知道结果可能取值的范围,而无监督学习不知道)
如何选择合适的算法?
如果想要预测目标变量的值,则可以选择监督学习算法(如果目标变量的类型是离散型,选择分类算法,连续型,则选择回归算法),否则选择无监督学习算法(如果要将数据划分成离散的组,则选择聚类算法,否则,选择密度估计算法)
开发机器学习应用程序的步骤
- 收集数据
- 准备输入数据
- 分析输入数据
- 训练算法(无监督学习,没有目标变量的值,不需要训练算法)
- 测试算法
- 使用算法