前言:1、最近三个月,个人职业有个不小的转变,从互联网行业转向保险行业,从数据开发岗转向数据挖掘岗位,终于能从事自己喜欢的职业,内心欣喜不已。13-14年曾经在coursera完整学习过吴恩达老师的机器学习课程,但一直没有项目实践。纸上得来终觉浅,绝知此事要躬行,实际项目经验很重要。
2、刚到公司,业务不熟悉,开发环境不熟悉,上线流程不熟悉,所有的环境都是陌生的,一切都归零。但相信这只是开始,在整个生命历程中只是那么一丢丢。该上路的,终究会上路,只是时间问题!相信梦想终会成真,认真努力,定会水到渠成。
3、在三个月的时间里,从提取业务数据到模型打分,从模型跑数到结果整理,每天都在不断加深对业务、数据、模型的理解,每天都新的东西需要学习总结。
于是乎,本文数据挖掘项目基本流程出世。先从整体上把握数据挖掘步骤,后面再深入探讨具体细节。
一、确立业务目标
- 首先,我们应该确定数据挖掘项目的基本目标,是预测投保人会购买哪种类型的保险?还是投保人会在下一个月参与投保的可能性多大?当确定好目标,确定好方向之后,我们才能在项目的实施过程中,始终朝这个目标努力,不偏离方向。
- 目标确定之后,需要将整个挖掘项目的目标变量提取出来。客户是否会在下个月购买保险,那么训练模型的目标变量就是客户过去是否购买保险(二分类);客户具体会购买哪一种或几种保险,目标变量就是过去购买的保险种类代码(多分类) <