多元统计分析——聚类分析——鸢尾花数据集在K-均值、层次、DBSCAN上的比较

最新推荐文章于 2023-12-16 19:10:24 发布

xia ge tou lia

最新推荐文章于 2023-12-16 19:10:24 发布

阅读量6k

点赞数 11

分类专栏：多元统计分析聚类分析

本文链接：https://blog.csdn.net/huangguohui_123/article/details/108181314

版权

多元统计分析同时被 2 个专栏收录

13 篇文章 20 订阅

订阅专栏

聚类分析

5 篇文章 3 订阅

订阅专栏

鸢尾花数据集是非常经典的数据集，常被用来数据挖掘初学者进行数据探索，本文基于鸢尾花数据集分别进行K-均值聚类、层次聚类、DBSCAN（密度聚类），比较这三类算法的区别。

一、K-均值聚类

关于K-均值聚类算法的详细介绍可见《多元统计分析——聚类分析——K-均值聚类（K-中值、K-众数）》。

二、层次聚类

关于层次聚类算法的详细介绍可见《多元统计分析——聚类分析——层次聚类》。

三、DBSCAN（密度聚类）

关于DBSCAN（密度聚类）聚类算法的详细介绍可见《多元统计分析——聚类分析——DBSCAN（基于密度的聚类）》。

本文主要目的是结合数据集探索三者的区别，接下来我们直接上案例。

四、案例：鸢尾花数据集

1、导入数据

import matplotlib.pyplot as plt  
import numpy as np  
from sklearn.cluster import KMeans
from sklearn import datasets 
from sklearn.decomposition import PCA, FactorAnalysis

iris = datasets.load_iris() 
print(iris.data.shape)

输出：

(150, 4)

2、原始数据集PCA降维及可视化

iris_pca = PCA(n_components=2)
iris_pca_score = iris_pca.fit_transform(iris.data)
print(iris_pca.explained_variance_ratio_ )

输出：

[0.92461872 0.05306648]

降成二维能够解释将近98%的方差。我们进一步可视化，查看原始标签下的数据分布：

for cluster, marker in zip(range(3), ['x', 'o', '+']):
    x_axis = iris_pca_score[:, 0][iris.target == cluster] #降维之后第一维数据
    y_axis = iris_pca_score[:, 1][iris.target == cluster] #降维之后第二维数据
    plt.scatter(x_axis, y_axis, marker=marker)
    
plt.show()

输出：

3、KMeans、DBSCAN、层次聚类效果比较

为了区别不同数据分布（比如噪声）对聚类效果的差异，聚类之前我们不进行降维，我们降维的目的是为了方便绘制图形。

#K-均值
from sklearn.cluster import KMeans
from sklearn.cluster import dbscan
import pandas as pd
import scipy.cluster.hierarchy as sch  #层次聚类
import matplotlib.pyplot as plt



fig=plt.figure(figsize=[16, 3])

#原始标签
ax=fig.add_subplot(1,4,1)

for cluster, marker in zip(range(3), ['x', 'o', '+']):
    x_axis = iris_pca_score[:, 0][iris.target == cluster] #降维之后第一维数据
    y_axis = iris_pca_score[:, 1][iris.target == cluster] #降维之后第二维数据
    plt.scatter(x_axis, y_axis, marker=marker)
    
plt.title('cluster by target')

#KMeans聚类
ax=fig.add_subplot(1,4,2)
iris_kmeans = KMeans(n_clusters=3, n_init=15) 
iris_kmeans.fit(iris.data)
for cluster, marker in zip(range(3), ['x', 'o', '+']):
    x_axis = iris_pca_score[:, 0][iris_kmeans.labels_ == cluster]
    y_axis = iris_pca_score[:, 1][iris_kmeans.labels_ == cluster]
    plt.scatter(x_axis, y_axis, marker=marker)
    
plt.title('cluster by KMeans')

#DBSCAN
ax=fig.add_subplot(1,4,3)

core_samples,cluster_ids = dbscan(iris.data, eps = 0.4, min_samples=4) # eps为邻域半径，min_samples为最少点数目
cluster_ids

for cluster, marker in zip(range(-1,3,1), ['x', 'o', '+','*']):
    x_axis = iris_pca_score[:, 0][cluster_ids == cluster]
    y_axis = iris_pca_score[:, 1][cluster_ids == cluster]
    plt.scatter(x_axis, y_axis, marker=marker)
plt.title('cluster by DBSCAN')

#层次聚类
ax=fig.add_subplot(1,4,4)

Z = sch.linkage(iris.data, method ='ward',metric='euclidean') #euclidean代表欧式距离。

label = sch.cut_tree(Z,n_clusters=3)

A=pd.DataFrame(iris.data,columns=iris.feature_names)
A['label']=label

for cluster, marker in zip(range(3), ['x', 'o', '+']):
    x_axis = iris_pca_score[:, 0][A['label'] == cluster]
    y_axis = iris_pca_score[:, 1][A['label'] == cluster]
    plt.scatter(x_axis, y_axis, marker=marker)
    
plt.title('cluster by hierarchy')

输出：