机器学习基本流程
众所周知,ML是一个流程性很强的工作(所以很多人后面会用PipeLine),数据采集、数据清洗、数据预处理、特征工程、模型调优、模型融合、模型验证、模型持久化;
而在这些基本的步骤内,又存在很多种方式,比如数据采集可以是爬虫,可以是数据库拉取,可以是通过API获取等等,数据清洗要注意缺失值处理,异常值处理,特征工程更是复杂多样,因此根据Kaggle上的一些大佬们的分享,整理了一张基本流程以及对应细分的步骤操作图给大家,算是对各个步骤做了比较详细的分析,应付Kaggle上的入门项目是完全够的了,希望能够对大家有一点帮助;
流程介绍
数据采集
所有的机器学习算法在应用场景、优势劣势、对数据要求、运行速度上都各有优劣,但有一点不变的是都是数据贪婪的,也就是说任何一个算法,都可以通过增加数据来达到更好的结果,因此第一步数据采集也是最基础,最终的一步;
几种方式介绍:
- 爬虫:这种通常在个人项目、公司资源不足以提供数据、原始数据不足需要扩展数据情况下使用较多,比如根据时间获取天气数据,一般都