机器学习解决问题的通用流程:
通用流程主要分为四部分:问题建模、特征工程、模型选择、模型融合。
一、问题建模
- 收集问题资料,深入理解问题,然后将问题抽象成机器可预测的问题。
- 明确业务目标和模型预测目标。
- 根据预测目标选择适当的评估指标用于模型评估。
- 从原始数据中选择最相关的样本子集用于模型训练,并对样本子集划分训练集和测试集,应用交叉验证的方法对模型进行选择和评估。
完成问题建模、对数据进行筛选和清洗之后,进行数据抽取特征,即特征工程。
二、特征工程
- 特征工程是一项很重要但又困难的任务,不仅需要我们对模型和算法有深入的理解,还需要有很扎实的专业领域知识。
- 工业界大多数成功应用机器学习的问题,都是在特征工程方面做得很好。
- 虽然不同模型和不同问题都会导致特征工程差异很大,但仍有很多特征工程的技巧可以通用。
进行特征工程是为了将特征输入给模型,让模型数据中学习规律。
三、模型选择
- 众多模型中选择最佳的模型需要对模型有很深入的理解。
四、模型融合
- 充分利用不同模型 的差异,进一步优化目标。
参考:
《美团机器学习实战》