概念
对于连续属性,要先进行零-均值规范,在进行距离的计算。在K-Means算法中,一般需要度量样本间的距离,样本与簇之间的距离以及簇与簇之间的距离
数据
现在有部分餐饮客户的消费数据见表
方法
R表示最近一次消费时间间隔,F表示消费频率,M表示消费总金额。
采用K-Means聚类算法,设定聚类个数为3,最大迭代次数为3,距离函数只能采用欧式距离
代码与解释
# -*- coding: utf-8 -*-
# 使用K-Means算法聚类消费行为特征数据
import pandas as pd
k = 3 # 聚类的类别
iteration = 3 # 聚类最大循环次数
def initData():
# 参数初始化
global k, iteration
inputfile = 'data/consumption_data.xls' # 销量及其他属性数据
outputfile = 'data/out_consumption_data.xls' # 保存结果的文件名
data = pd.read_excel(inputfile, index_col='Id') # 读取数据
data_zs = 1.0 * (data - data.mean()) / data.std() # 数据标准化,0-均值规范化
from sklearn.cluster import KMeans
model = KMeans(n_clusters=k, n_jobs=4, max_iter=iteration) # 分为k类,并发数4
model.fit(data_zs) # 开始聚类
#简单打印结果
r1 = pd.Series(model.labels_).value_counts() # 统计各个类别的数目
print r1
r2 = pd.DataFrame(model.cluster_centers_) # 找出聚类中心
print r2
r = pd.concat([r2, r1], axis=1) # 横向连接(0是纵向),得到聚类中心对应的类别下的数目
print r
r.columns = list(data.columns) + [u'类别数目'] # 重命名表头
print(r)
# 详细输出原始数据及其类别
r = pd.concat([data, pd.Series(model.labels_, index=data.index)], axis=1) # 详细输出每个样本对应的类别
r.columns = list(data.columns) + [u'聚类类别'] # 重命名表头
r.to_excel(outputfile) # 保存结果
pic_output = 'image/pd_' # 概率密度图文件名前缀
for i in range(k):
density_plot(data[r[u'聚类类别'] == i]).savefig(u'%s%s.png' % (pic_output, i))
def density_plot(data): # 自定义作图函数
global k
import matplotlib.pyplot as plt
plt.rcParams['font.sans-serif'] = ['SimHei'] # 用来正常显示中文标签
plt.rcParams['axes.unicode_minus'] = False # 用来正常显示负号
p = data.plot(kind='kde', linewidth=2, subplots=True, sharex=False)#subplots = True制作子图 sharex = False是不共享X轴刻度
[p[i].set_ylabel(u'密度') for i in range(k)]
plt.legend() #加不加这句代码都不影响
return plt
if __name__ == '__main__':
initData()
可以通过结论倒推代码意思,输出3个分群的图如下
生成的图片
分群一的特点,时间间隔小,主要集中在0-30天,消费次数集中在10-25次,消费金额在500-2000
剩下两个你们自己看图分析吧,哈哈。
对比分析
分群一是高消费,高价值人群,分群二代表一般客户,分群三是价值较低的客户。