基于Kmeans聚类的航空公司会员客户价值分析

1.导入相关的包

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

2.导入数据

# 导入航空公司会员客户数据
df = pd.read_csv(r"C:\Python\基于数据挖掘技术的航空公司会员客户价值研究报告\air_data.csv")
df

df

# 导入字段说明数据
df_field = pd.read_excel(r"C:\Python\基于数据挖掘技术的航空公司会员客户价值研究报告\数据特征说明.xlsx")
df_field

在这里插入图片描述

# 更改列名为中文名
dfc = df.copy()
dfc.columns = df_field['属性名称']
dfc

在这里插入图片描述

3、选择模型指标

# 这里使用以下指标作为RFM模型指标:其中金额指标拆分为两部分,分别是平均折扣率和飞行公里数,平均折扣率越高,说明打折幅度越少
# 说明这是价格不敏感的客户,而飞行公里也在一定程度上能够衡量机票的金额,飞行公里数越大越好。
# R:最近一次飞行间隔:LAST_TO_END
# F:飞行频率:FLIGH_COUNT
# D:折扣率:avg_discount
# K:飞行公里:SEG_KM_SUM

# 选择模型指标
df_rfm = dfc.loc[:,['最后一次乘机时间至观察窗口末端时长','飞行次数','平均折扣率','观测窗口总飞行公里数']]
df_rfm.columns = ['R','F','D','K']
df_rfm

3.1、缺失值处理

# 观察特征缺失值比例
df_rfm.isnull().sum()

3.2、异常值处理

# 因为KMeans是基于距离计算的聚类模型,因此离群点会对建模产生影响,所以要对异常值做处理
df_rfm.describe()

在这里插入图片描述

# 由下表可知,F值的最大值是0.95分位数的五倍,K值的最大值也是0.95分位数的5倍,属于异常值
df_rfm.describe([0.9,0.95])

在这里插入图片描述

# 使用95分位数盖帽法来处理异常值
F_095 = df_rfm['F'</
  • 4
    点赞
  • 28
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值