谱聚类python实践

最新推荐文章于 2024-05-30 11:11:00 发布

ALWAYS_FANG

最新推荐文章于 2024-05-30 11:11:00 发布

阅读量1.3k

点赞数

分类专栏：机器学习文章标签：谱聚类 python实践 ch指数

本文链接：https://blog.csdn.net/qq_38120760/article/details/82952559

版权

机器学习专栏收录该内容

24 篇文章 0 订阅

订阅专栏

#coding=utf-8

import numpy as np
from sklearn.cluster import SpectralClustering
import matplotlib.pyplot as plt
import sklearn.datasets as ds
import matplotlib
from sklearn.metrics import calinski_harabaz_score
from sklearn.neighbors import KNeighborsClassifier
matplotlib.rcParams['font.sans-serif'] = [u'SimHei']
matplotlib.rcParams['axes.unicode_minus'] = False 

colors =['black','lightcoral','orange','tan','lightgreen','cornflowerblue','lime','cyan','purple','yellow','fuchsia','darkblue','plum','palegreen','pink']

#生成数据
data,y = ds.make_blobs(300, n_features=2, centers=3, cluster_std=[1,0.5,1],random_state=3)

#绘制原始图形
plt.subplot(211)
plt.title(u"原始图形")
for i in range(3):
    plt.scatter(data[y==i][:,0],data[y==i][:,1],color=colors[i+4])


#开始聚类
#第一步利用ch指标来调参，CH越大代表着类自身越紧密，类与类之间越分散，即更优的聚类结果。
#假设我们不知道聚类的数目，那么我们就要使用交叉验证了
n_cluster = [2,3,4,5,6]
gamma = [0.0001,0.001,0.01,0.1,10]

for i in n_cluster:
    for j in gamma:
        model = SpectralClustering(n_clusters=i,gamma=j)
        model.fit(data)
        score = calinski_harabaz_score(data,model.labels_)
        print "簇数：",i,"sigmma:",j,"ch指数:",score
        
#可知当簇数为3.gamma为0.01,0.1时聚类效果越好。
#绘制聚类的结果
model = SpectralClustering(n_clusters=3,gamma=0.01)
model.fit(data)
pre_y = model.labels_
plt.subplot(212)
plt.title(u"聚类结果")
for i in range(3):
    plt.scatter(data[pre_y==i][:,0],data[pre_y==i][:,1],color=colors[i])
plt.show()