笔者是一个痴迷于挖掘数据中的价值的学习人,希望在平日的工作学习中,挖掘数据的价值,找寻数据的秘密,笔者认为,数据的价值不仅仅只体现在企业中,个人也可以体会到数据的魅力,用技术力量探索行为密码,让大数据助跑每一个人,欢迎直筒们关注我的公众号,大家一起讨论数据中的那些有趣的事情。
我的公众号为:livandata
此案例主要是了解建模的一个整体的流程,以及特征工程的构建,在建模过程中,特征的选择是直接影响到模型好坏的因素,此案例为凸显流程的重要性,暂时忽略细节部分,后面会用python构建完整的客户保留分析模型。
广义流失定义:
- 客户消失;
- 转运营商;
- 价值流失;
- 网内换号;
即解决:预测客户流失情况,并进行相应的解决,主要解决三个问题:
1、哪些客户会流失?
主要是做客户流失预测模型。
首先构建模型:
1)哪些客户会进入模型?
客户有活性:客户很长时间没有交易,这部分客户很快流失,但是很难挽留;
哪些指标去捕捉用户流失前的特征?
2)用哪些指标捕捉流失前特征?
客户属性、客户消费行为、客户上网行为等;
3)用什么窗口捕捉流失前特征?
客户前一周、前三天、前一个月等的行为,构建一个个的窗口,来捕捉流失前的蛛丝马迹;
2、什么原因流失?
3、该用什么样方式挽留?
流失预测模型的误区:
1、片面强调准确率
准确率和自然流失率、预测用户规模、观察期长短有关;
与预测的对象有关;
2、预测目标不对
预测用户不能是离网的;
3、流失时间点不对
向前追溯用户事实流失时间,该时间点之前的数据用于建模预测;
4、预测对象不对
预测对象满足两个条件:
能进行挽留工作;
预测模型有意义;
如何定义流失?
1)离网;
2)不出帐;
3)沉默;
4)和哪些客户进入模型有关;
以上反应用户的行为信息、趋势信息、走势趋势等。
数据取好之后,探索数据的分布:
比如:
表示有多少个天数没有通话了。
缺失值不多的变量作为输入值;
对部分变量进行离散化处理。
前面的变量已经处理完成,现在需要选择建模样本。
模型的固话:
规则转换:
比如将决策树的规则转化成sql语句: