机器学习基本流程整理 - 这一篇就够啦

本文详细梳理了机器学习的基本流程,包括数据采集(如爬虫、API、数据库)、数据清洗(合理性、有效性检查)、数据预处理(缺失值、异常值处理)、特征工程(构建、拆分、选择)、模型调优、模型融合和验证,以及模型持久化。重点强调了特征工程在提升模型性能中的关键作用,并提供了流程图辅助理解。
摘要由CSDN通过智能技术生成

机器学习基本流程

流程图链接

众所周知,ML是一个流程性很强的工作(所以很多人后面会用PipeLine),数据采集、数据清洗、数据预处理、特征工程、模型调优、模型融合、模型验证、模型持久化;

而在这些基本的步骤内,又存在很多种方式,比如数据采集可以是爬虫,可以是数据库拉取,可以是通过API获取等等,数据清洗要注意缺失值处理,异常值处理,特征工程更是复杂多样,因此根据Kaggle上的一些大佬们的分享,整理了一张基本流程以及对应细分的步骤操作图给大家,算是对各个步骤做了比较详细的分析,应付Kaggle上的入门项目是完全够的了,希望能够对大家有一点帮助;

流程介绍

数据采集

所有的机器学习算法在应用场景、优势劣势、对数据要求、运行速度上都各有优劣,但有一点不变的是都是数据贪婪的,也就是说任何一个算法,都可以通过增加数据来达到更好的结果,因此第一步数据采集也是最基础,最终的一步;

几种方式介绍:

  • 爬虫:这种通常在个人项目、公司资源不足以提供数据、原始数据不足需要扩展数据情况下使用较多,比如根据时间获取天气数据,一般都
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值