用餐饮客户消费数据进行K-Means算法实战

概念

对于连续属性,要先进行零-均值规范,在进行距离的计算。在K-Means算法中,一般需要度量样本间的距离,样本与簇之间的距离以及簇与簇之间的距离
具体见图

数据

现在有部分餐饮客户的消费数据见表这里写图片描述

方法

R表示最近一次消费时间间隔,F表示消费频率,M表示消费总金额。
采用K-Means聚类算法,设定聚类个数为3,最大迭代次数为3,距离函数只能采用欧式距离

代码与解释

# -*- coding: utf-8 -*-
# 使用K-Means算法聚类消费行为特征数据
import pandas as pd

k = 3  # 聚类的类别
iteration = 3  # 聚类最大循环次数
def initData():
  # 参数初始化
  global k, iteration
  inputfile = 'data/consumption_data.xls'  # 销量及其他属性数据
  outputfile = 'data/out_consumption_data.xls'  # 保存结果的文件名
  data = pd.read_excel(inputfile, index_col='Id')  # 读取数据
  data_zs = 1.0 * (data - data.mean()) / data.std()  # 数据标准化,0-均值规范化
  from sklearn.cluster import KMeans
  model = KMeans(n_clusters=k, n_jobs=4, max_iter=iteration)  # 分为k类,并发数4
  model.fit(data_zs)  # 开始聚类
  #简单打印结果
  r1 = pd.Series(model.labels_).value_counts()  # 统计各个类别的数目
  print r1
  r2 = pd.DataFrame(model.cluster_centers_)  # 找出聚类中心
  print r2
  r = pd.concat([r2, r1], axis=1)  # 横向连接(0是纵向),得到聚类中心对应的类别下的数目
  print r
  r.columns = list(data.columns) + [u'类别数目']  # 重命名表头
  print(r)
  # 详细输出原始数据及其类别
  r = pd.concat([data, pd.Series(model.labels_, index=data.index)], axis=1)  # 详细输出每个样本对应的类别
  r.columns = list(data.columns) + [u'聚类类别']  # 重命名表头
  r.to_excel(outputfile)  # 保存结果
  pic_output = 'image/pd_'  # 概率密度图文件名前缀
  for i in range(k):
      density_plot(data[r[u'聚类类别'] == i]).savefig(u'%s%s.png' % (pic_output, i))

def density_plot(data):  # 自定义作图函数
    global k
    import matplotlib.pyplot as plt
    plt.rcParams['font.sans-serif'] = ['SimHei']  # 用来正常显示中文标签
    plt.rcParams['axes.unicode_minus'] = False  # 用来正常显示负号
    p = data.plot(kind='kde', linewidth=2, subplots=True, sharex=False)#subplots = True制作子图 sharex = False是不共享X轴刻度
    [p[i].set_ylabel(u'密度') for i in range(k)]
    plt.legend() #加不加这句代码都不影响
    return plt

if __name__ == '__main__':
  initData()

可以通过结论倒推代码意思,输出3个分群的图如下
这里写图片描述
生成的图片
这里写图片描述
这里写图片描述
这里写图片描述
分群一的特点,时间间隔小,主要集中在0-30天,消费次数集中在10-25次,消费金额在500-2000
剩下两个你们自己看图分析吧,哈哈。

对比分析

分群一是高消费,高价值人群,分群二代表一般客户,分群三是价值较低的客户。

评论 9
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值