Picture from Internet
一、行业背景
面对激烈的市场竞争,航空公司面临着旅客流失、竞争力下降、航空资源未充分利用等危机,通过建立合理的客户价值评估模型,对客户进行分群,分析比较不同客户群的客户价值,并制定相应的营销策略,对不同的客户群提供个性化的客户服务是非常必要的。二、分析目标
1. 借助航空公司的客户数据,对客户进行分类; 2. 对不同类的客户类别进行特征分析,比较不同类客户的客户价值; 3. 从营销角度讲,客户价值分析是一个市场细分问题,解决市场细分问题比较常用的方法是聚类分析; 4. 对不同价值的客户类别提供个性化的服务,并且制定相应的营销策略,使得公司的利益最大化。三、分析方法
1. 改进的RFM模型 RFM模型是衡量客户价值和客户创利能力的重要工具和手段,它通过一个客户的近期购买行为、购买的总体频次以及购买的总体金额三个指标来描述客户的价值状况。分别为:最近消费时间间隔(Recently)、消费频率(Frequency)、消费金额(Money)。 在RFM模型的基础上,结合具体的业务背景,选择在一定时间内累积的飞行里程数(M)和客户在一定时间内乘坐舱位对应的折扣系数的平均值C来代替消费金额指标。此外,航空公司会员入会时间的长短在一定时间内会影响客户价值,模型中增加了客户关系长度指标L。即利用客户 入会时长L、消费时间间隔R、消费频率F、飞行里程数M以及折扣系数的平均值C 来作为航空公司识别客户价值的指标,记为LRFMC模型。通过对航空公司客户价值LRFMC五个指标进行 K-Means聚类 ,识别最有价值客户。 2. 处理流程图1 航空公司案例分析流程图
四、分析步骤(含R语言代码)
1. 读取数据
数据收集窗口期为2012年4月1日至2014年3月31日,包含所有乘客会员的44个特征的62988条记录。本文重点关注以下指标变量:
表1 航空公司客户数据说明
#读取数据data
2. 预处理
主要关注异常值和缺失值的处理,包括票价为空或0、折扣率最小值为0且总飞行千米数大于0的记录。由于原始数据量较大,而异常值和缺失值的样本量较小,对结果影响不大,因此采用剔除法删除以上记录。
#丢弃SUM_YR窗口期为空的数据集delete.na#丢弃票价为0,平均值折扣系数为0但总飞行千米数大于0的记录index1index2index30cleandata
3.构建5个特征指标
由于原始数据没有给出LRFMC模型的5个指标,需要通过原始变量计算得到,具体的计算公式如下:
表2 LRFMC模型指标计算
#构建LRFMC的5个特征LLRFMCzscoreDatasummary(zscoreData)
通过R语言中的summary函数来查看每个指标数据的分布情况,其数据取值范围如表3所示,发现五个指标的数据差异较大,为了消除数据数量级较大带来的影响,对数据进行了标准化处理。
表3 LRFMC模型指标取值范围
#标准化5个特征并存储到zscoredFile.csvzscoredFilewrite.csv(zscoredFile,'zscoredFile.csv',row.names= FALSE)
4. K-Means聚类
K-Means聚类算法是一种基于质心的划分方法,输入聚类个数k,以及包含n个数据对象的数据库,输出满足误差平方和最小标准的k个聚类。算法步骤如下:
(1)从n个样本数据中随机选取k个对象作为初始的聚类中心; (2)分别计算每个样本到各个聚类质心的距离,将样本分配到距离最近的那个聚类中心类别中; (3)所有样本分配完成后,重新计算k个聚类的中心; (4)与前一次计算得到的k个聚类中心比较,如果聚类中心发生变化,转(2),否则转(5); (5)当质心不发生变化时停止并输出聚类结果。#K-Means聚类zscoredFile'zscoredFile.csv')set.seed(123)resultround(result$centers,3)#保留3位小数table(result$cluster)#聚类结果表
表4 K-Means聚类结果
5. 雷达图
雷达图是将3个或3个以上不同维度的数据,通过一定的公式,将不同维度的数据转化为统一度量后,绘制在同一个中心点出发轴上的图形,可以简单理解成圆形的百分比图,用来显示各种维度数据的百分比。本文所呈现出来的图形是描述了一个航空客户的综合价值。
# 雷达图lbrary(radarchart)labs'L',G1$centers[1,]G2$centers[2,]G3$centers[3,]G4$centers[4,]G5$centers[5,]scoreschartJSRadar(scores=scores,labs=labs, scaleStartValue=-1)#雷达图绘制
图2 聚类可视化(雷达图)
五、客户价值分析 1. 重要保持客户(G3):这类客户的平均折扣率(C)较高(一般所乘航班的舱位的等级较高),最近乘坐过本公司航班(R)低,乘坐的次数(F)或里程(M)较高。他们是公司的高价值客户,是最理想的客户类型,对航空公司的贡献率大,但是所占的比例较小。
航空公司应当优先将资源投放在他们身上,对他们做到一对一精准营销,比如提供相应的优惠政策,提高这类客户的忠诚度和满意度,尽可能延长这类客户的高消费水平。
2. 重要发展客户(G5):这类客户的平均折扣率(C)较高,最近乘坐过本公司航班(R)低,乘坐的次数(F)或里程(M)较低。这类客户入会时长(L)短,他们是公司的潜在价值客户。
航空公司在运营过程中也要相应加大对这部分客户的投入,比如以短信和邮件的方式询问客户是否满意、提供适当的优惠服务等,加强这类客户的满意度,使他们逐渐成为公司的忠实客户。
3. 重要挽留客户(G1):这类客户的平均折扣率(C)、乘坐的次数(F)或里程(M)较高,但是已经较长时间已经没有乘坐过本公司航班,即(R)较高或者乘坐的频率变小,他们是公司的重要挽留客户。
航空公司在运营过程中要积极推测这类客户的异常情况,进行竞争分析,观察其他航空公司有什么营销策略,然后采取有针对性的营销手段,延长客户的生命周期。
4. 一般和低价值客户(G2、G4):这类客户的平均折扣率(C)较低,最近乘坐过本公司航班(R)低,乘坐的次数(F)或里程(M)较低。入会时长(L)也较短,因此可能只是在机票打折的时候才会乘坐本航班。
小结: 本案例是 R 语言的经典案例。基于航空公司数据集,重点介绍了数据分析算法中 K-Means 聚类算法在客户价值分析中的应用。针对 RFM 客户价值分析模型的不足,使用 K-Means 算法构建了 LRFMC 客户价值分析模型,为依赖于该模型的业务内容提供了可行的见解。部分资料参考于https://blog.csdn.net/wanglingli95/article/details/79434388
撰文:田妍
编辑:刘璐
往期推荐
互联网茶馆 | Typora: 纯文本格式的轻量级标记语言
数据分析之道 | 通过在线评论分析生鲜市场用户群组
行为研究前沿 | 在线产品试用对动态销量的影响
点点在看 你会更好看