流失预测模型的应用
一、概述
对于一个互联网企业来说,用户流失是一个不可避免的问题。一定范围内的用户流失率是可以被接受的,因为并不是所有的用户都是我们的目标用户。但是当用户的流失率超出我们的预期时,就应该思考用户为什么会离开?有没有办法预测出具有流失倾向的用户?并通过针对性的挽留工作避免其流失。
本文主要介绍对游戏行业用户流失情况进行数据挖掘的过程,通过对大量用户的历史数据进行分析处理,归纳出具有流失倾向的用户行为特征,然后利用Spark ML的随机决策森林算法建立分类模型,通过多次的交叉验证,选出最佳模型参数,并对活跃的用户群体的流失倾向进行评分,预测出具有流失倾向的用户。
随机决策森林算法是机器学习领域内应用极为广泛的一个算法,它可以用来做分类和回归计算。它是由多个决策树独立构造而成,其决策树之间是独立的,相对于一棵决策树,随机决策森林是集体智慧的象征,每棵树都会分别做一次预测,然后统计此处出现最多的预测标签,并将它作为最终的预测结果。因此,随机决策森林具有更高的准确度,同时也避免出现过拟合的现象。
二、数据集介绍
为了构建一个随机决策森林分类器模型,首先需要提取对分类最有帮助的特征。具体如下:
数据集截图:
数据处理流程:
主逻辑实现代码:
交叉验证:
模型评估:
评估参数:
在本文例子中,训练的最佳模型参数为:numTrees=26, maxDepth=11, maxBins=30。
用该模型预测数据:
预测效果图:
横坐标表示开展用户流失挽留活动的目标用户占总用户数的百分比,纵坐标表示选中的目标用户中,实际包含的流失用户占全部流失用户的百分比。
上图中,蓝色曲线表示在没有流失模型支持下随机抽取用户进行挽留活动的效果,目标用户越多,能够关怀到的流逝用户也就越多。
红色曲线表示在有流失模型支持下,选择一定量的目标用户进行挽留活动的效果。可以发现,只要不是对全部用户进行挽留活动,有模型比无模型的目标用户中总能包含更多的实际流失用户。
三、结论