、
机器学习的应用工作是围绕着数据与算法展开的。可以这么讲:数据+机器学习算法=预测模型
数据和算法一起发挥作用,才能构建一个能够使用的预测模型。在这当中,数据的“质”与“量”对最后的结果有着非常大的影响。
===================分割线======================
一个完整机器学习项目的流程可以如下形式
1 抽象成数学问题
明确问题是进行机器学习的第一步。机器学习的训练过程通常都是一件非常耗时的事情,胡乱尝试时间成本是非常高的。 这里的抽象成数学问题,指的我们明确我们可以获得什么样的数据,目标是一个分类还是回归或者是聚类的问题,如果都不是的话,如果划归为其中的某类问题。
2 获取数据
数据决定了机器学习结果的上限,而算法只是尽可能逼近这个上限。
数据要有代表性,否则必然会过拟合。
而且对于分类问题,数据偏斜不能过于严重,不同类别的数据数量不要有数个数量级