层次聚类

层次聚类

1、算法原理

层次聚类将所有样本当成一个聚类,然后不断合并距离最近的聚类,直到只剩下一个聚类,由此得到系统树图;最后根据设定的聚类数n,将系统树切分为n个子树,从而达到聚类效果。

由上图可得,层次聚类的关键在于如何计算两个聚类的距离,根据计算两个聚类的距离的算法可以分为以下四种聚类算法:
1、单链接聚类法(sklearn里没有该方法)
样本间最短的距离为聚类间的距离;

2、全连接聚类法(linkage= “complete”)
样本间最长的距离为聚类间的距离;

3、组平均聚类法(linkage= “average”)
聚类间任意两个样本的距离之和的平均值为聚类间的距离;

4、离差平方和法(linkage= “ward”,默认值)
离差平方和法的目的是把合并类时的变化量最小化,假设聚类A的中心点为a,聚类B的中心点为b,A、B合并后的聚类为C,其中心点为c,则聚类A、B的距离为:
d ( A , B ) = ∑ i = 1 m + n c i 2 − ∑ i = 1 m a i 2 − ∑ i = 1 n b i 2 d(A,B) = \sum_{i=1}^{m+n}c_i^2-\sum_{i=1}^ma_i^2-\sum_{i=1}^nb_i^2 d(A,B)=i=1m+nci2i=1mai2i=1nbi2
其中 c i 为 聚 类 C 中 的 样 本 点 到 中 心 点 c 的 距 离 c_i为聚类C中的样本点到中心点c的距离 ciCc

2、sklearn中的层次聚类

##导入库
from sklearn.cluster import AgglomerativeClustering
##建模,并指定聚类个数
ward = AgglomerativeClustering(n_clusters=3)
##拟合并预测数据
ward_pred = ward.fit_predict(data)

绘制系统树:

from scipy.cluster.hierarchy import linkage,dendrogram
import matplotlib.pyplot as plt
#指定连接类型为离差平方和法
linkage_type = ‘ward’
#拟合数据,并得到关联矩阵
linkage_matrix = linkage(X, linkage_type)
#创建窗口
plt.figure(figsize=(22,18))
#将关联矩阵输送到系统方法
dendrogram(linkage_matrix)
#显示
plt.show()

3、层次聚类的优缺点

如上图,从左到右分别为图一到图六;由图二、图三和图六可知,层次聚类对集中的类别区分的效果非常好;再看图五,受到离群值的影响,聚类效果并不好,由此可知,噪音和离群值对层次聚类的影响非常大,所以在训练数据前要处理掉这些异常值;最后看图一和图四,层次聚类对这两种分布的数据聚类效果非常差。

  • 1
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值