1. 背景与挖掘目标
1.1 背景
- 企业营销焦点从产品中心转变为客户中心,客户关系管理成为企业的核心问题
- 客户关系管理的关键问题是客户分类,通过客户分类,
- 针对不同价值的客户制定优化的个性化服务方案,采取不同营销策略
1.2 目标
- 借助航空公司客户数据,对客户进行分类。
- 对不同的客户类别进行特征分析,比较不同类客户的客户价值。
- 对不同价值的客户类别提供个性化服务,制定相应的营销策略。
2. 分析方法与过程
本案例的目标是客户价值识别。
识别客户价值应用最广泛的模型是通过3个指标(最近消费时间间隔(Recency)、消费频率(Frequency)和消费金额(Monetary))来进行客户细分,识别出高价值的客户,简称RFM模型。
在RFM模型中,消费金额表示在一段时间内,客户购买该企业产品金额的总和。由于航空票价受到运输距离、舱位等级等多种因素影响,同样消费金额的不同旅客对航空公司的价值是不同的。例如,一位购买长航线、低等级舱位票的旅客与一位购买短航线、高等级舱位票的旅客相比,后者对于航空公司而言价值可能更高。因此,这个指标并不适用于航空公司的客户价值分析。
我们选择客户在一定时间内累积的飞行里程M和客户在一定时间内乘坐舱位所对应的折扣系数的平均值C两个指标代替消费金额。此外,考虑航空公司会员入会时间的长短在一定程度上能够影响客户价值,所以在模型中增加客户关系长度L,作为区分客户的另一指标。
本案例将客户关系长度L、消费时间间隔R、消费频率F、飞行里程M和折扣系数的平均值C五个指标作为航空公司识别客户价值指标(见表7-3 ),记为LRFMC模型。
针对航空公司LRFMC模型,如果采用传统RFM模型分析的属性分箱方法(依据属性的平均值进行划分,其中大于平均值的表示为↑,小于平均值的表示为↓),虽然也能够识别出最有价值的客户,但是细分的客户群太多,提高了针对性营销的成本。因此,本案例采用聚类的方法识别客户价值。通过对航空公司客户价值的LRFMC模型的五个指标进行K-Means聚类,识别出最有价值客户。
本案例航空客户价值分析的总体流程
航空客运信息挖掘主要包括以下步骤。
- 从航空公司的数据源中进行选择性抽取与新增数据抽取分别形成历史数据和增量数据。
- 对步骤1.中形成的两个数据集进行数据探索分析与预处理,包括数据缺失值与异常值的探索分析,数据的属性规约、清洗和变换。
- 利用步骤2.中形成的已完成数据预处理的建模数据,基于旅客价值LRFMC模型进行客户分群,对各个客户群进行特征分析,识别出有价值的客户。
- 针对模型结果得到不同价值的客户,采用不同的营销手段,提供定制化的服务。
3. 数据加载与探索
import numpy as np
import pandas as pd
from sklearn.cluster import KMeans
data = pd.read_csv('./chapter7/demo/data/air_data.csv')
data.info()
- 有62988条数据,44个属性
explore = data.describe(percentiles= [], include= 'all').T # percentiles,统计中的百分位数
explore['null'] = len(data) - explore['count'] # 添加空值数量列
explore = explore[['null', 'max', 'min']]
explore
- 通过对数据观察发现原始数据中存在票价(SUM_YR)为空值,票价(SUM_YR)最小值为0、折扣率(avg_discount)最小值为0的记录。票价为空值的数据可能是客户不存在乘机记录造成,其他的数据可能是客户乘坐0折机票或者积分兑换产生的。
4. 数据预处理
4.1 数据清洗
通过数据探索分析,发现数据中存在缺失值,票价最小值为0、折扣率最小值为0的记录。由于原始数据量大,这类数据所占比例较小,对于问题影响不大,因此对其进行丢弃处理。具体处理方法如下。
- 丢弃票价为空的记录。
- 丢弃票价为0、平均折扣率不为0、总飞行公里数大于0的记录。
# 数据清洗
data = data[data[