【机器学习08】层次聚类

该博客介绍了层次聚类的两种类型:聚合和分裂,并详细讲解了凝聚层次聚类(AGNES)的步骤。文章还探讨了类间聚类距离的不同计算方法,如最小距离、最大距离、中心距离和平均距离。接着,通过示例展示了如何使用sklearn库中的AgglomerativeClustering API,基于欧氏距离和最大距离方法进行层次聚类。最后,提供了加载数据并可视化聚类结果的代码示例。
摘要由CSDN通过智能技术生成

9 层次聚类

9.1 简介

层次聚类分为两种类型:

  • 聚合(agglomerative)或自下而上(bottom-up)聚类
  • 分裂(divisive)或自上而下(top-down)聚类

凝聚层次聚类(AGNES):属于聚合或自下而上聚类

步骤:

  1. 构造 m m m个类,每个类包含一个样本,即有多少个样本就有多少个类
  2. 计算类与类之间的距离 d i j d_{ij} dij,记作矩阵 D = [ d i j ] m ∗ m D=[d_{ij}]_{m*m} D=[dij]mm
  3. 合并间距最小的两个类
  4. 若达到聚类数 K K K则退出
  5. 重新计算类之间的距离 d i j d_{ij} dij,重复第3步

9.2 距离计算方法

类间聚类距离计算方法:

  1. 最小距离(单连接)
  2. 最大距离(完全连接)
  3. 中心(均值)距离
  4. 平均距离

image-20220507170344388

举例:

image-20220507170858201

9.3 Sklearn之层次聚类

层次聚类相关API:

# sklearn库
from sklearn.cluster import AgglomerativeClustering

"""
linkage取值:
   single:最小距离
   complete:最大距离
   ward:最小方差
   average:平均距离
"""
# 创建模型(定义层次聚类)
model=AgglomerativeClustering(n_clusters=聚类中心(质心)个数,affinity=距离计算公式,linkage=距离计算方法)
# 训练模型
# 输入:一个二维数组表示的样本矩阵
# 输出:每个样本最终的结果
model.fit(输入)

print("每个样本所属的簇(类别):",model.labels_)

案例:加载cluster_data.csv数据文件,基于sklearn库实现层次聚类模型

import numpy as np
import matplotlib.pyplot as plt
import matplotlib as mpl
# sklearn库
from sklearn.cluster import AgglomerativeClustering

def loaddata():
    data = np.loadtxt('data/cluster_data.csv',delimiter=',')
    return data

X = loaddata()
# 散点图
plt.scatter(X[:, 0], X[:, 1], s=20)

# 注意sklearn 0.20以上版本才支持linkage='single'
# 创建模型(定义层次聚类)【距离计算公式:欧式距离,距离计算方法:最大距离】
model = AgglomerativeClustering(n_clusters=3,affinity='euclidean',linkage='complete')
# 训练模型
model.fit(X)

print("每个样本所属的簇(类别):",model.labels_)

# 可视化
cm_dark = mpl.colors.ListedColormap(['g', 'r','b'])
# c=model.labels_:根据model.labels_的取值匹配cmp属性来设置颜色
plt.scatter(X[:, 0], X[:, 1], c=model.labels_, cmap=cm_dark, s=20)
plt.show()

image-20220507173126800

  • 1
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值