对原始数据进行数据清洗,生成LRFMC数据
L:成为会员时常
R:最后一次使用服务
F:使用服务总次数
M:使用服务总深度
C:平均获得折扣值
最后使用KMeans机器学习分类算法就LRFMC指标进行分类,估计客户价值
#python3.6.5
#-*- coding: utf-8 -*-
import pandas as pd
from sklearn.cluster import KMeans
data_file= 'air_data.csv' #航空原始数据,第一行为属性标签
output_file = 'data_output.csv'
data = pd.read_csv(data_file,encoding='utf-8') #读取原始数据,指定UTF-8编码(需要用文本编辑器将数据装换为UTF-8编码)
print(data.info())
#data clear
data = data[data['SUM_YR_1'].notnull() & data['SUM_YR_2'].notnull