python数据分析与挖掘实战（5）挖掘建模之聚类分析、关联规则

最新推荐文章于 2023-12-21 21:53:48 发布

Three123v

最新推荐文章于 2023-12-21 21:53:48 发布

阅读量1.4k

点赞数 4

CC 4.0 BY-SA版权

分类专栏： python

本文链接：https://blog.csdn.net/Three123v/article/details/97663887

本文深入探讨Python数据挖掘实战，重点介绍了K-means聚类算法的应用和评价，以及关联规则的挖掘过程。通过实例展示了如何利用K-means进行数据分组，并对聚类效果进行了评估。同时，提到了使用apriori.py进行关联规则挖掘。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

K-means 聚类算法

#!/usr/bin/env python
# -*- coding:utf-8 -*-
import pandas as pd
inputfile='E:\\pycharm\\python数据分析与挖掘实战数据及源码\\chapter5\\demo\\data\\consumption_data.xls'
outputfile='E:\\pycharm\\python数据分析与挖掘实战数据及源码\\chapter5\\demo\\tmp\\data_type1.xls'
k=3
iteration=500
data=pd.read_excel(inputfile,index_col=u'Id')
data_zs=1.0*(data-data.mean())/data.std()#数据标准化

from sklearn.cluster import  KMeans
model=KMeans(n_clusters=k,n_jobs=1,max_iter=iteration)#分为k类，并发数为4
model.fit(data_zs)

#简单打印结果
r1=pd.Series(model.labels_).value_counts()#统计各个类别的数目
r2=pd.DataFrame(model.cluster_centers_)#找出聚类中心
r=pd.concat([r2,r1],axis=1)#横向连接（0是纵向），得到聚类中心对应的类别下的数目
r.columns=list(data.columns)+[u'类别数目']

#详细输出原始数据及其类别
r=pd.concat([data,pd.Series(model.labels_,index=data.index)],axis=1)
r.columns=list(data.columns)+[u'聚类类别']
r.to_excel(outputfile)

def density_plot(data):#自定义作图函数
    import matplotlib.pyplot as plt
    plt.rcParams['font.sans-serif'] = ['SimHei']