Python数据挖掘建模 chapter_3 聚类

最新推荐文章于 2022-11-30 21:56:12 发布

LegendGrass

最新推荐文章于 2022-11-30 21:56:12 发布

阅读量817

点赞数

分类专栏：数据挖掘文章标签： python 人工智能数据挖掘算法

本文链接：https://blog.csdn.net/lengendgrass/article/details/78456311

版权

数据挖掘专栏收录该内容

8 篇文章 1 订阅

订阅专栏

1.常用聚类

划分方法	K-meas,K-MEDOIDS,CLARNS
层次分析法	BIRCH,CURE,CHAMELEON
基于密度	DBSAN,DENCLUE,OPTICS
基于网格	STING,CLIOUE,WAVE-CLUSTER

2.数据度量：欧几里得算法、曼哈顿距离、闵可夫斯基距离

3.聚类主要算法（sklearn.cluster）

Kmeans	k均值聚类
AffinityPropagation	吸引力传播聚类
MeanShift	均值飘移聚类
SpectralCluster	谱聚类
AgglomerativeCluster	层次聚类
DBSCAN	有噪声基于密度聚类
BIRCH	综合层次聚类，大规模聚类

数据举例 data.xls

Id	R	F	M
1	27	6	232.61
2	3	5	1507.11
3	4	16	817.62
4	3	11	232.81
5	14	7	1913.05
6	19	6	220.07
7	5	2	615.83
8	26	2	1059.66
9	21	9	304.82
10	2	21	1227.96
...

#-*- coding: utf-8 -*-
#使用K-Means算法聚类消费行为特征数据

import pandas as pd

#参数初始化
inputfile = 'data.xls' #销量及其他属性数据
outputfile = 'data_result.xls' #保存结果的文件名
k = 3 #聚类的类别
iteration = 500 #聚类最大循环次数
data = pd.read_excel(inputfile, index_col = 'Id') #读取数据
data_zs = 1.0*(data - data.mean())/data.std() #数据标准化

from sklearn.cluster import KMeans
model = KMeans(n_clusters = k, n_jobs = 1, max_iter = iteration) #分为k类，并发数1
model.fit(data_zs) #开始聚类

#简单打印结果
r1 = pd.Series(model.labels_).value_counts() #统计各个类别的数目
r2 = pd.DataFrame(model.cluster_centers_) #找出聚类中心
r = pd.concat([r2, r1], axis = 1) #横向连接（0是纵向），得到聚类中心对应的类别下的数目
r.columns = list(data.columns) + [u'num_clarify'] #类别数目
print(r)

#详细输出原始数据及其类别
r = pd.concat([data, pd.Series(model.labels_, index = data.index)], axis = 1)  #详细输出每个样本对应的类别
r.columns = list(data.columns) + [u'cluster_clarify'] #聚类类别
r.to_excel(outputfile) 


def density_plot(data): #作图函数
  import matplotlib.pyplot as plt
  plt.rcParams['font.sans-serif'] = ['SimHei'] #用来正常显示中文标签
  plt.rcParams['axes.unicode_minus'] = False #用来正常显示负号
  p = data.plot(kind='kde', linewidth = 2, subplots = True, sharex = False)
  [p[i].set_ylabel(u'midu') for i in range(k)]
  plt.legend()
  return plt

pic_output = 'pd_'
for i in range(k):
  density_plot(data[r[u'cluster_clarify']==i]).savefig(u'%s%s.png' %(pic_output, i))

LegendGrass

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
Python数据挖掘建模 chapter_3 聚类

1.常用聚类划分方法K-meas,K-MEDOIDS,CLARNS层次分析法BIRCH,CURE,CHAMELEON基于密度DBSAN,DENCLUE,OPTICS基于网格STING,CLIOUE,WAVE-CLUSTER2.数据度量：欧几里得算法、曼哈顿距离、闵可夫斯基距离3.聚类主要算法（skl
复制链接

扫一扫

专栏目录