文章目录
写在前面
其实在大规模数据集下(数据在百万级以上且特征在百维以上)进行聚类,最好是使用分布式进行计算,本人也没有太多经验,仅此稍稍提下。
对于中等规模数据集(数据在十万级左右且特征在百维以上),优先推荐的还是使用sklearn的MiniBatchKMeans,但是有时候类别个数参数调整远比最大距离参数调整来的困难时,自然而然会想到使用基于密度聚类的DBSCAN。
但是在sklearn.cluster.DBSCAN实际的使用过程中,有时会面临因为数据集规模扩大,重新聚类时占用内存过高,导致memory error,从而使程序被kill。本文就是说一说一些可选取的内存优化方案。
PS:仅针对内存相关问题,速度上的比如多进程相关内容不涵盖。
内存占用过高原因
其实这个问题,sklearn官方文档中也给出了对应说明。
This implementation bulk-computes all neighborhood queries, which increases the memory complexity to O(n.d) where d is the average number of neighbors, while original DBSCAN had memory complexity O(n). It may attract a higher memory complexity when querying these nearest neighborhoods, depending on the algorithm.
谷歌翻译:该实现对所有邻居查询进行批量计算,从而将内存复杂度增加到O(n*d),其中d是邻居的平均数量,而原始DBSCAN的内存复杂度为O(n)。根据选取算法的不同&#x