【机器学习08】层次聚类

最新推荐文章于 2024-07-19 19:18:47 发布

执志@☆飞扬か

最新推荐文章于 2024-07-19 19:18:47 发布

阅读量926

点赞数 1

分类专栏： Python机器学习文章标签：聚类机器学习 sklearn 算法 python

本文链接：https://blog.csdn.net/qq_41566530/article/details/124762021

版权

Python机器学习专栏收录该内容

8 篇文章 4 订阅

订阅专栏

该博客介绍了层次聚类的两种类型：聚合和分裂，并详细讲解了凝聚层次聚类（AGNES）的步骤。文章还探讨了类间聚类距离的不同计算方法，如最小距离、最大距离、中心距离和平均距离。接着，通过示例展示了如何使用sklearn库中的AgglomerativeClustering API，基于欧氏距离和最大距离方法进行层次聚类。最后，提供了加载数据并可视化聚类结果的代码示例。

摘要由CSDN通过智能技术生成

9 层次聚类

9.1 简介

层次聚类分为两种类型：

聚合(agglomerative)或自下而上(bottom-up)聚类
分裂(divisive)或自上而下(top-down)聚类

凝聚层次聚类(AGNES)：属于聚合或自下而上聚类

步骤：

构造 $m$ 个类，每个类包含一个样本，即有多少个样本就有多少个类
计算类与类之间的距离 $d_{ij}$ ，记作矩阵 $D=[d_{ij}]_{m*m}$
合并间距最小的两个类
若达到聚类数 $K$ 则退出
重新计算类之间的距离 $d_{ij}$ ，重复第3步

9.2 距离计算方法

类间聚类距离计算方法：

最小距离（单连接）
最大距离（完全连接）
中心(均值)距离
平均距离

举例：

9.3 Sklearn之层次聚类

层次聚类相关API：

# sklearn库
from sklearn.cluster import AgglomerativeClustering

"""
linkage取值：
   single：最小距离
   complete：最大距离
   ward：最小方差
   average：平均距离
"""
# 创建模型(定义层次聚类)
model=AgglomerativeClustering(n_clusters=聚类中心(质心)个数,affinity=距离计算公式,linkage=距离计算方法)
# 训练模型
# 输入：一个二维数组表示的样本矩阵
# 输出：每个样本最终的结果
model.fit(输入)

print("每个样本所属的簇(类别)：",model.labels_)

案例：加载cluster_data.csv数据文件，基于sklearn库实现层次聚类模型

import numpy as np
import matplotlib.pyplot as plt
import matplotlib as mpl
# sklearn库
from sklearn.cluster import AgglomerativeClustering

def loaddata():
    data = np.loadtxt('data/cluster_data.csv',delimiter=',')
    return data

X = loaddata()
# 散点图
plt.scatter(X[:, 0], X[:, 1], s=20)

# 注意sklearn 0.20以上版本才支持linkage='single'
# 创建模型(定义层次聚类)【距离计算公式：欧式距离，距离计算方法：最大距离】
model = AgglomerativeClustering(n_clusters=3,affinity='euclidean',linkage='complete')
# 训练模型
model.fit(X)

print("每个样本所属的簇(类别)：",model.labels_)

# 可视化
cm_dark = mpl.colors.ListedColormap(['g', 'r','b'])
# c=model.labels_：根据model.labels_的取值匹配cmp属性来设置颜色
plt.scatter(X[:, 0], X[:, 1], c=model.labels_, cmap=cm_dark, s=20)
plt.show()

执志@☆飞扬か

关注

1
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
【机器学习08】层次聚类

9 层次聚类9.1 简介层次聚类分为两种类型：聚合(agglomerative)或自下而上(bottom-up)聚类分裂(divisive)或自上而下(top-down)聚类凝聚层次聚类(AGNES)：属于聚合或自下而上聚类步骤：构造mmm个类，每个类包含一个样本，即有多少个样本就有多少个类计算类与类之间的距离dijd_{ij}dij，记作矩阵D=[dij]m∗mD=[d_{ij}]_{m*m}D=[dij]m∗m合并间距最小的两个类若达到聚类数KKK则退出重新计算类之间的
复制链接

扫一扫