刚刚开始写博客,希望能保持关注,会继续努力。
以数据相关为主,互联网为辅进行文章发布。
本文是《Python数据分析与挖掘实战》一书的实战部分,在整理分析后的复现。
本篇文章是本书第七章的实战:航空公司客户价值分析。
相关附件代码、数据和PDF,关注公众号“数据路”,回复:挖掘实战。
更好的观看体验,在线Jupyter notebook科赛平台,直接体验,点击这里
1.背景与挖掘目标
1.1背景
- 航空公司业务竞争激烈,从产品中心转化为客户中心。
- 针对不同类型客户,进行精准营销,实现利润最大化。
- 建立客户价值评估模型,进行客户分类,是解决问题的办法
1.2挖掘目标
- 借助航空公司客户数据,对客户进行分类。
- 对不同的客户类别进行特征分析,比较不同类客户的客户价值
- 对不同价值的客户类别提供个性化服务,制定相应的营销策略。
详情数据见数据集内容中的air_data.csv和客户信息属性说明
2.分析方法与过程
2.1分析方法
- 首先,明确目标是客户价值识别。
- 识别客户价值,应用最广泛的模型是三个指标(消费时间间隔(Recency),消费频率(Frequency),消费金额(Monetary))
- 以上指标简称RFM模型,作用是识别高价值的客户
- 消费金额,一般表示一段时间内,消费的总额。但是,因为航空票价收到距离和舱位等级的影响,同样金额对航空公司价值不同。
- 因此,需要修改指标。选定变量,舱位因素=舱位所对应的折扣系数的平均值=C,距离因素=一定时间内积累的飞行里程=M。
- 再考虑到,航空公司的会员系统,用户的入会时间长短能在一定程度上影响客户价值,所以增加指标L=入会时间长度=客户关系长度
- 总共确定了五个指标,消费时间间隔R,客户关系长度L,消费频率F,飞行里程M和折扣系数的平均值C
- 以上指标,作为航空公司识别客户价值指标,记为LRFMC模型
- 如果采用传统的RFM模型,如下图。它是依据,各个属性的平均值进行划分,但是,细分的客户群太多,精准营销的成本太高。
- 综上,这次案例,采用聚类的办法进行识别客户价值,以LRFMC模型为基础
- 本案例,总体流程如下图
2.2挖掘步骤
- 从航空公司,选择性抽取与新增数据抽取,形成历史数据和增量数据
- 对步骤一的两个数据,进行数据探索性分析和预处理,主要有缺失值与异常值的分析处理,属性规约、清洗和变换
- 利用步骤2中的已处理数据作为建模数据,基于旅客价值的LRFMC模型进行客户分群,对各个客户群再进行特征分析,识别有价值客户。
- 针对模型结果得到不同价值的客户,采用不同的营销手段,指定定制化的营销服务,或者针对性的优惠与关怀。(重点维护老客户)
2.3数据抽取
- 选取,2014-03-31为结束时间,选取宽度为两年的时间段,作为观测窗口,抽取观测窗口内所有客户的详细数据,形成历史数据
- 对于后续新增的客户信息,采用目前的时间作为重点,形成新增数据
2.4探索性分析
- 本案例的探索分析,主要对数据进行缺失值和异常值分析。
- 发现,存在票价为控制,折扣率为0,飞行公里数为0。票价为空值,可能是不存在飞行记录,其他空值可能是,飞机票来自于积分兑换等渠道,
- 查找每列属性观测值中空值的个数、最大值、最小值的代码如下。
import pandas as pd
datafile= r'/home/kesci/input/date27730/air_data.csv' #航空原始数据,第一行为属性标签
resultfile = r'/home/kesci/work/test.xls' #数据探索结果表
data = pd.read_csv(datafile, encoding = 'utf-8') #读取原始数据,指定UTF-8编码(需要用文本编辑器将数据装换为UTF-8编码)
explore = data.describe(percentiles = [], include = 'all').T #包括对数据的基本描述,percentiles参数是指定计算多少的分位数表(如1/4分位数、中位数等);T是转置,转置后更方便查阅
print(explore)
explore['null'] = len(data)-explore['count'] #describe()函数自动计算非空值数,需要手动计算空值数
explore = explore[['null', 'max', 'min']]
explore.columns = [u'空值数', u'最大值', u'最小值'] #表头重命名
print('-----------------------------------------------------------------以下是处理后数据')
print(explore)
'''这里只选取部分探索结果。
describe()函数自动计算的字段有count(非空值数)、unique(唯一值数)、top(频数最高者)、freq(最高频数)、mean(平均值)、std(方差)、min(最小值)、50%(中位数)、max(最大值)'''
-----------------------------------------------------------------以下是处理前数据
count unique top freq mean std
MEMBER_NO 62988 NaN NaN NaN 31494.5 18183.2
FFP_DATE