dbscan内存不够_sklearn DBSCAN内存相关问题

文章目录

写在前面

其实在大规模数据集下(数据在百万级以上且特征在百维以上)进行聚类,最好是使用分布式进行计算,本人也没有太多经验,仅此稍稍提下。

对于中等规模数据集(数据在十万级左右且特征在百维以上),优先推荐的还是使用sklearn的MiniBatchKMeans,但是有时候类别个数参数调整远比最大距离参数调整来的困难时,自然而然会想到使用基于密度聚类的DBSCAN。

但是在sklearn.cluster.DBSCAN实际的使用过程中,有时会面临因为数据集规模扩大,重新聚类时占用内存过高,导致memory error,从而使程序被kill。本文就是说一说一些可选取的内存优化方案。

PS:仅针对内存相关问题,速度上的比如多进程相关内容不涵盖。

内存占用过高原因

其实这个问题,sklearn官方文档中也给出了对应说明。

This implementation bulk-computes all neighborhood queries, which increases the memory complexity to O(n.d) where d is the average number of neighbors, while original DBSCAN had memory complexity O(n). It may attract a higher memory complexity when querying these nearest neighborhoods, depending on the algorithm.

谷歌翻译:该实现对所有邻居查询进行批量计算,从而将内存复杂度增加到O(n*d),其中d是邻居的平均数量,而原始DBSCAN的内存复杂度为O(n)。根据选取算法的不同&#x

  • 1
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值