可伸缩聚类算法综述（可伸缩聚类算法开篇）

最新推荐文章于 2022-10-18 15:43:15 发布

Leon1895

最新推荐文章于 2022-10-18 15:43:15 发布

阅读量2k

点赞数 1

分类专栏：机器学习文章标签：可伸缩聚类 Scalable Clustering

本文链接：https://blog.csdn.net/qq_40793975/article/details/83536182

版权

本文作为可伸缩聚类算法的开篇，探讨了针对大规模数据集减少时间与空间复杂度的方法，包括多维存取、邻近度界、抽样、数据划分、汇总和并行计算。举例介绍了如何使用这些技术优化K-Means和其它聚类算法，以应对大数据挑战。

摘要由CSDN通过智能技术生成

可伸缩聚类算法综述

第二十八次写博客，本人数学基础不是太好，如果有幸能得到读者指正，感激不尽，希望能借此机会向大家学习。这一篇文章作为可伸缩聚类（Scalable Clustering）算法的开篇，简要介绍了几种针对大规模数据常用的减少时间和空间复杂度的方法。

许多聚类算法所需要的存储量（空间复杂度）都是非线性的，以层次聚类为例，其所需的存储量为，由于磁盘对随机访问速度的限制，这类算法并不适用于大规模的数据集，而且算法本身难以修改。另外，某些算法的计算量（时间复杂度）也是非线性的，因此在这里针对上述问题介绍几种常用的减少时间和空间复杂度的方法。

多维或空间存取方法

许多聚类技术（K-Means、DBSCAN等）需要找出最近的质心、点的最近邻或指定距离内的所有点。可以使用称为多维或空间存取方法的专门技术来更加有效的执行这些任务，至少对于低维数据可以这样做。这些技术，如k-d树或R*树，一般产生数据空间的层次划分，可以用来减少发现点的最近邻所需要的时间。注意，基于网格的聚类法也划分数据空间（如DENCLUE中对核密度估计的改进）。