分层聚类简介
分层聚类是另一种无监督学习算法,用于将具有相似特征的未标记数据点组合在一起。分层聚类算法分为以下两类:
凝聚分层算法-在凝聚分层算法中,每个数据点被视为单个集群,然后连续地合并或聚集(自下而上的方法)成对的集群。簇的层次结构表示为树状图或树结构。
分裂分层算法-另一方面,在分裂层次算法中,所有数据点都被视为一个大集群,集群过程涉及将一个大集群划分为(自上而下)方法到各个小集群中。
步骤执行凝聚层次聚类
我们将解释最常用和最重要的层次聚类,即凝聚性。执行相同的步骤如下
步骤2-现在,在这一步中,我们需要通过连接两个壁橱数据点来形成一个大型集群。这将导致总共K-1个星团。
步骤3-现在,为了形成更多的集群,我们需要加入两个壁橱集群。这将导致总共K-2个群集。
步骤4-现在,为了形成一个大的集群,重复上述三个步骤,直到K变为0,即没有更多的数据点可以加入。
步骤5-最后,在制作一个大的聚类之后,根据问题,将使用树状图分成多个聚类。
树状图在聚合分层聚类中的作用
正如我们在上一步中讨论的那样,树形图的作用一旦形成大簇就开始了。树形图将用于根据我们的问题将聚类分成多个相关数据点集群。可以通过以下示例-来理解;
示例1
要理解,让我们开始导入所需的库,如下所示;%matplotlib inline
import matplotlib.pyplot as plt
import numpy as np
接下来,我们将绘制我们为此示例所采用的数据点-X&