上次喵老师留下了一个悬念没有展开👇,今天喵老师就在这篇笔记里给大家把坑填上。
机器学习的标准流程是怎样的?
如果你去网上随手一搜,得到的大概类似这样👇
总结的没问题,但我们先只关注最核心的部分(喵老师贴心地⭕️了出来)。
确定问题
这是一个经常不被重视的第0步👇。
沿用之前笔记里的例子,根据身体指标(左图简化到只有血糖这一个特征)判断是否患有糖尿病,是一个二分类问题(期望的答案只有是/否)。
根据环境因素(右图简化到只有温度这一个特征)预测冰淇淋销量,是一个回归问题(期望的答案是一个任意可能的数值)。
正确定义问题,才能在后续步骤中选择相应的正确操作。
数据是第一位的
📊收集数据
在入门的前期,请不要耗费太多的时间和精力在收集数据上,我们以入门学习为目标,优先使用已经收集整理好的高质量数据集
(后续的模型教程笔记里,配套代码都是基于挑选的高质量数据,能帮我们快速熟悉流程、跑通代码)
🍳准备数据
- 如果数据来自不同的来源,你可能需要整理数据并对其进行标准化
- 你可以通过各种方法提高数据的质量和数量,例如将字符串转换为数字
- 你还可以根据原始数据生成新数据
- 你可以清理和编辑数据
- 最后,你可能还需要对其进行随机化和打乱,具体取决于你的训练方式
(尽管跳过了数据收集的环节,但是基本的数据预处理知识还是十分有必要的,这将影响到后续机器学习模型的效果)
数据的划分
它们的意义和作用可以形象地理解为👇
模型选择
终于要涉及到令人期待的模型了,这里喵老师祭出压箱底的小抄👇
上图的机器学习小抄从前面提到的「确定问题」为原点,给出了到具体的模型选择的路径,足够应对绝大多数常见机器学习场景。
接下来的流程据说 只有聪明的人才能看到👇
哈哈开个玩笑👻,选择模型之后的流程其实在前面介绍「数据划分」的时候已经提前透露了:训练-调参-评估。
这些流程就需要紧密结合项目案例来学习了,请看后面对应的专项笔记和代码教程吧。
整理不易如果你觉得有些收获,不妨:
点个赞❤️
收藏一下⭐️
再给个关注吧👑
喵老师会持更新更多笔记和资料,希望能给零基础接触AI的你带来帮助。