1、先抽象成数学问题,指的是我们可以获得什么样的数据,目标是一个分类还是回归,或者聚类的问题,如果都不是,划归为某类问题
2、获取数据 数据决定了机器学习的上限,而算法只是尽可能的逼近这个上限,要对数据的量级有一个评估,多少个样本,多少个特征,可以估算出对内存的消耗程度,判断训练过程中内存是否放得下,如果放不下,就考虑改进算法或者用降维的技巧,如果放不下,要考虑分布式
3、特征预处理与特征选择
特征预处理、数据清洗是很关键的一步,往往可以使算法的效率提高,归一化,离散化,因子化,缺失值处理,去除共线性,筛选出显著的特征,特征选择
4、训练模型与调优
5、模型诊断
是否是欠拟合或者是过拟合,常见的方法如交叉验证,绘制学习曲线,过拟合的基本思想是增加数据量,降低模型复杂度,欠拟合提高特征数量和质量,增加模型复杂度。
6、模型融合
7、上线运行
对于机器学习项目的流程是
最新推荐文章于 2024-07-17 20:10:56 发布