一、业务理解
主要任务是深刻理解业务需求,在此基础上制定数据挖掘的目标和实现目标的初步计划。
二、数据理解
收集数据,熟悉数据,识别数据的质量问题和探索引起兴趣的子集。
三、数据准备
从收集来的数据集选择必要的属性(因素),并按关联关系将它们连接成一个数据集,然后进行数据清洗:即空值及异常值处理、离群值剔除,数据标准化等。
四、建模阶段
选择应用不同的数据挖掘技术,并确定模型最佳的参数。如果初步分析发现模型的效果不太满意,需要再跳回到数据准备阶段,甚至数据理解阶段。
五、建模评估
主要对建立的模型进行可靠性评估和合理性解释。
六、部署阶段
根据评估后认定为合理的模型,制定将其应用于实际工作的策略,形成应用部署报告。