1.层次聚类通过相似度来创建聚类树,把每个样本点当成一个簇
2.BIRCH全称是利用层次方法的平衡迭代规约和聚类
3.BIRCH算法关键是构建聚类特征树
4.聚类特征树由非叶子节点个数B、每个叶子节点的CF数L、半径阈值T决定
5.BIRCH算法聚类速度快、能识别噪音点;但对高维、非凸数据效果不好
K-means是基于质心的聚类算法,谱聚类是基于无向图的聚类方法,这一篇我们介绍一种新的聚类方法——BIRCH算法,开始前先介绍与之相关的聚类算法——层次聚类(Hierarchical Clustering)
算法思路
层次聚类主要通过计算数据点间的相似度来创建一棵有层次的嵌套聚类树,它试图在不同层次对数据集进行划分,从而形成树形的聚类结构。
初始时每个样本各为一簇,然后开始逐步合并的过程,算法步骤如下:
step1:将每个样本都视为一个聚类
step2:计算各个聚类之间的相似度
step3:寻找最近的两个聚类,将他们归为一类
step4:重复步骤二,步骤三;直到所有样本归为一类
我们举个例子来说明这个思想,对于以下一维特征的7个样本点A—G:
注:两个聚类之间相似性的度量采取所有样本距离的均值,这里距离用欧式距离衡量,sklearn包AgglomerativeClustering的参数linkge取“average”: