1.导入相关的包
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
2.导入数据
df = pd.read_csv(r"C:\Python\基于数据挖掘技术的航空公司会员客户价值研究报告\air_data.csv")
df
df_field = pd.read_excel(r"C:\Python\基于数据挖掘技术的航空公司会员客户价值研究报告\数据特征说明.xlsx")
df_field
dfc = df.copy()
dfc.columns = df_field['属性名称']
dfc
3、选择模型指标
df_rfm = dfc.loc[:,['最后一次乘机时间至观察窗口末端时长','飞行次数','平均折扣率','观测窗口总飞行公里数']]
df_rfm.columns = ['R','F','D','K']
df_rfm
3.1、缺失值处理
df_rfm.isnull().sum()
3.2、异常值处理
df_rfm.describe()
df_rfm.describe([0.9,0.95])
F_095 = df_rfm['F'].quantile(0.95)
df_rfm['F'] &