一.描述
谱聚类是从图论中演化出来的聚类算法,主要思想是把所有的样本看做空间中的点点之间以线相连成为一体,以线长计算权重,线越长权重越低;将指定的簇数切分为多个子图,让不同子图间的权重和尽可能低,而各个子图内的权重尽可能高,从而达到聚类的目的
谱聚类和K均值聚类一样,也需要指定簇的数量(默认都是8),但谱聚类对簇的形状没有特殊要求,对样本分布的适应性更强,更重要的是,它比K均值聚类的计算量小很多。
二.实例1
from sklearn import datasets as dss
from sklearn.cluster import SpectralClustering
import matplotlib.pyplot as plt
plt.rcParams['font.sans-serif'] = ['FangSong']
plt.rcParams['axes.unicode_minus'] = False
X, y = dss.make_circles(n_samples=1000, noise=0.05, factor=0.5)
# 默认参数
scm_1 = SpectralClustering()
# 指定簇数为2
scm_2 = SpectralClustering(n_clusters=2)
scm_3 = SpectralClustering(affinity='nearest_neighbors', n_clusters=2)
scm_1.fit(X)
scm_2.fit(X)
scm_3.fit(X)
plt.figure(figsize=(20, 10))
plt.subplot(131)
plt.title('默认参数')
plt.scatter(X[:, 0], X[:, 1], c=scm_1.labels_)
plt.subplot(132)
plt.title('指定簇数')
plt.scatter(X[:, 0], X[:, 1], c=scm_2.labels_)
plt.subplot(133)
plt.title('指定簇数和亲和矩阵构造方式')
plt.scatter(X[:, 0], X[:, 1], c=scm_3.labels_)
plt.show()