Hierarchical Nearest Neighbor Graph Embedding for Efficient Dimensionality Reduction
-
【2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)】
-
简介
本文提出了一种利用最近邻图及其点的层次分组的降维算法(h-NNE)。该算法包括三个主要步骤:基于1-NNG 构建树层次结构,使用PCA的近似版本计算初步投影,并根据构建的树调整投影点的位置。其中投影点位置调整可以通过可选的膨胀步骤来增强,可用于提高可视化。
与目前常见的降维方法相比,本文的方法是一个重大转变。该方法没有构建加权k-NN图,而是通过递归地构建带有静态边缘链接的1-NN图来创建聚类层次结构。然后使用这个层次结构在低维空间中移动样本,而不需要使用基于梯度下降的优化,这消除了对特定超参数的依赖,从而提供了一种高效且可扩展的降维方法。 -
实验及结果
本文在不同大小的数据集上演示了h-NNE,这些数据集涵盖了传感器数据、文本、数字和视频等领域,并且将所提出的方法与当前最先进的算法进行了比较,结果如下:
-
模型优点
1.嵌入过程是无优化的,不依赖于指定超参数;
2.是一种快速和可伸缩的技术,该技术可以很好地保持数据的全局和局部结构;
3.能够在原始空间和目标空间中公开数据的聚类结构,这使得研究人员能够在其层次结构分组的不同层次上分析数据;
4.更快的运行速度和提供集群标签的能力对于可视化大规模的未标记数据特别有用。 -
模型局限性
1.依赖于研发者构建的层次最近邻图结构,在各个层次聚类中可能发生的任何错误都会直接转化为这些点的全局结构和局部化质量的降低。但是由于这些分类错误也反映了原始空间中类的分离性不佳,当使用h-NNE来检查为数据集生成的特征的质量时,这是一个期望的特性;
2.该方法不能通过设计来保留原始空间的拓扑结构,为了消除这一限制,将需要保存更多的数据的本地属性。这在更高的维度上是可能的,但非常低的维度,如2或3,它与层次化的NNG数据分区的保存相冲突,后者捕获了一个更全局的结构。因此,在这种情况下,我们把这种限制更多看作是一种权衡。