一、实现目标
(1)借助航空公司客户数据,对客户进行分类
(2)对不同的客户进行特征分析,比较不同类客户的客户价值
(3)对不同价值的客户类别提供个性化服务,指定相应的营销策略
二、分析方法与过程
航空客运信息挖掘主要步骤:
(1)从航空公司的数据源进行选择性的抽取与新增数据抽取分别形成历史数据和增量数据
(2)对步骤(1)中形成的两个数据集进行数据探索和预处理,包括数据缺失值与异常值的探索分析,数据的属性规约、清洗和变换
(3)利用步骤(2)中形成的已完成数据预处理的建模数据,基于客户价值LRFMC模型进行客户分群,对各个客户进行特征分析,识别出有价值的客户
(4)针对模型结果得到不同价值的客户,采用不同的营销手段,提供定制化的服务
数据抽取
数据探索分析:对数据进行缺失值分析与异常值分析,分析出数据的规律以及异常值,通过对数据观察发现原始数据中存在票价为空值,票价最小值为0,折扣率最小值为0,总飞行公里数大于0的记录,查找每列属性观察值中空值个数、最大值、最小值:
# -*- coding:utf-8 -*-
#对数据进行基本的探索,返回缺失值个数,最大值,最小值
import pandas as pd
#数据文件路径初始化
datafile = 'air_data.csv' #第一行为标签属性
#定义数据探索结果文件名
resultfile = 'data_explore.xls'
#使用pandas模块内置函数对文件内容惊醒读取
data = pd.read_csv(datafile,encoding = 'utf-8') #设置文件读取编码格式
#获取数据的相应属性内容
explore = data.describe(percentiles=[], include='all').T #对探索结果矩阵进行转置
print('T-explore