dbscan内存不够_sklearn DBSCAN内存相关问题

最新推荐文章于 2023-10-21 08:39:03 发布

月宫一号

最新推荐文章于 2023-10-21 08:39:03 发布

阅读量1.4k

点赞数 1

文章标签： dbscan内存不够

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_33669766/article/details/111901769

版权

文章目录

写在前面

其实在大规模数据集下(数据在百万级以上且特征在百维以上)进行聚类，最好是使用分布式进行计算，本人也没有太多经验，仅此稍稍提下。

对于中等规模数据集(数据在十万级左右且特征在百维以上)，优先推荐的还是使用sklearn的MiniBatchKMeans，但是有时候类别个数参数调整远比最大距离参数调整来的困难时，自然而然会想到使用基于密度聚类的DBSCAN。

但是在sklearn.cluster.DBSCAN实际的使用过程中，有时会面临因为数据集规模扩大，重新聚类时占用内存过高，导致memory error，从而使程序被kill。本文就是说一说一些可选取的内存优化方案。

PS：仅针对内存相关问题，速度上的比如多进程相关内容不涵盖。

内存占用过高原因

其实这个问题，sklearn官方文档中也给出了对应说明。

This implementation bulk-computes all neighborhood queries, which increases the memory complexity to O(n.d) where d is the average number of neighbors, while original DBSCAN had memory complexity O(n). It may attract a higher memory complexity when querying these nearest neighborhoods, depending on the algorithm.

谷歌翻译：该实现对所有邻居查询进行批量计算，从而将内存复杂度增加到O(n*d)，其中d是邻居的平均数量，而原始DBSCAN的内存复杂度为O(n)。根据选取算法的不同&#x

最低0.47元/天解锁文章

关注

1
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
dbscan内存不够_sklearn DBSCAN内存相关问题

文章目录写在前面其实在大规模数据集下(数据在百万级以上且特征在百维以上)进行聚类，最好是使用分布式进行计算，本人也没有太多经验，仅此稍稍提下。对于中等规模数据集(数据在十万级左右且特征在百维以上)，优先推荐的还是使用sklearn的MiniBatchKMeans，但是有时候类别个数参数调整远比最大距离参数调整来的困难时，自然而然会想到使用基于密度聚类的DBSCAN。但是在sklearn.clust...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。