1.引言
随着互联网业务的速发展,移动业务市场的客户流失预警成为每一个电信运营商重点关注的内容,在商务智能与机器学习快速发展的当下,运用数据挖掘的方法,实现对电信客户的挽留、转化、精准营销越来越彰显其商业价值。如何最大程度地挽留在网用户、吸取新客户,是电信企业最关注的问题之一。竞争对手的促销、公司资费软着陆措施的出台和政策法规的不断变化,影响了客户消费心理和消费行为,导致客户的流失特征不断发生变化。对于电信运营商而言,客户的流失会给电信企业带来市场占有率下降、营销成本增加、利润下降等一系列问题。在发展用户每月增加的同时,如何挽留和争取更多的用户,是一项非常重要的工作。
2.运营商客户流失因素分析
2.1 缺失值及数据冗余处理
电信客户信息中,部分属性如:VIP等级、本地主叫时长等存在数据缺失,对于这部分数据的预处理,时间上稳定的用户信息,如果数据缺失,以最近一个月的套餐信息代替;对于无法补充的用户信息,以NA替换;对于连续性信息的丢失,将该值前后时间上相邻的两个值的平均值。处理重复数据时,根据数据完整性及数据录入时间进行判断,选取完整性最高的数据或同等条件下最新的数据,剔除重复数据。
2.2 因素分析
部分属性的探索性分析过程如下:
(1)性别与用户流失
探索性数据分析作为数据挖掘前的数据处理方式,有助于分析人员摆脱条件假设的束缚,通过对原始数据的探索,寻求数据间的内在联系,从而帮助分析人员找出数据间的规律,选择适当的模型进行数据建模。对于性别的缺失值,我们可以观察到性别中的3种标签呈现出不同的流失程度,男性流失率为0.034,女性为0.030,NA为0.021,转换为3个哑变量。其他离散性变量处理方式相同。
(2)合约时间与用户流失
用户合约到期时时间与用户流失关系如图4所示,横坐标0为NA,可以看出,合约在短期内到期或呈缺失值的用户流失程度最高,其次到合约到期时间在中等长度的用户,2019年以后合约才到