聚类属于一种无监督学习方法,受自然界山体形式的启发,设计了一种邻域网格聚类算法。自然界中独立的山体可视为一个独立的类簇,山顶即为类簇中心,山底即为类簇的边缘。
试想:将二维平面的离散数据点(如图1所示)以某种特定的方式标记其重要程度(如局部密度),即可将二维平面数据点映射为三维空间内的山体形式(如图2所示)
图1 二维分布数据点
图2 三维密度分布图
邻域网格聚类的主要步骤为:首先将原始数据映射到网格子空间内,同时获取每个子空间单元格的局部密度,然后依据邻域关系从具有最大局部密度的单元格出发逐层地吸纳单元格,直至搜索完毕,聚类结束。对于二维空间而言,局部密度分布形式可表示为如图2所示的山体结构,山顶即为具有相对最大局部密度的聚类中心,每一个山体视为一个类簇。利用邻域关系完成从山顶至山脚的吸纳搜索过程。
邻域网格聚类主要步骤表述如下:
1)将原始数据映射至网格子空间;
2)以具有最大局部密度的网格单元为起始点,以给定邻域半径搜索其邻域单元格并标记(如图 3所示);
3)以新加入的单元格为基础