mongoDB大数据查询坑

最新推荐文章于 2024-06-15 17:54:37 发布

Monkey&Penguin

最新推荐文章于 2024-06-15 17:54:37 发布

阅读量2.7k

点赞数 2

分类专栏：工作日记文章标签： mongodb

本文链接：https://blog.csdn.net/qq_40285768/article/details/109619630

版权

面对30亿量级的数据，使用limit().skip()方法在MongoDB中遇到性能问题。skip在大数据查询时效率低下，导致进程阻塞或死掉。解决方案包括利用索引进行升序或降序查找，避免大量skip操作，以及采用多线程或分布式计算来提高效率。通过预爬取获取_id值进行数据分桶，进一步优化查询过程。

摘要由CSDN通过智能技术生成

有一个30亿量级数据的库，如何全量爬取并分析？

因为量级过大无法一次性爬取至本地再分析，考虑使用limit().skip()混合的方法，一次读取1万条数据进行分析存储，30亿数据分成30万份后再合并分析生成最后的结果。代码如下：

// i为跳跃条数，比如取第一个1万条时i为0，第二个1万条时i为1

db.getCollection("whois").find({}).limit(10000).skip(i*10000)

30个进程并发计算，一个进程负责1万份的量级。简单测试了下读取速度，非常快，几乎一秒读取数据，剩下的就是cpu本地计算的事儿了，预计8个小时完成，锁屏，下班。第二天来一看，发现了很奇怪的现象。

1.一天过去，数据只跑了2亿条左右。

2.大部分进程阻塞或者死掉。

3.前几个进程爬取的数据远远多于后面的进程，比如第一个进程的一万份数据基本上爬取完毕，第二个进程爬取了大半，第三个进程及以后非常的少甚至没有数据。

出现以上现象的原因：

skip不适用于大数据的查询搜索，数据量小的时候还可以，效率高，但是一但数据量达到一个层级（mongoDB本身提供的几十mb的内存限制）后，查询的算法会更改。比如查询limi(10000).skip(0)，即前一万条数据，很快查询并返回，因为经历了很少的分页查询，但是一但你使用limit(10000).skip(1000000000)，那么你会惊喜的发现查几天都出不来结果甚至直接查询失败。反复的查询数据提取到内存，一条条的数，看是否达到你想要条数，如果没有

最低0.47元/天解锁文章

Monkey&Penguin

关注

2
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
mongoDB大数据查询坑

有一个30亿量级数据的库，如何全量爬取并分析？因为量级过大无法一次性爬取至本地再分析，考虑使用limit().skip()混合的方法，一次读取1万条数据进行分析存储，30亿数据分成30万份后再合并分析生成最后的结果。代码如下：// i为跳跃条数，比如取第一个1万条时i为0，第二个1万条时i为1db.getCollection("whois").find({}).limit(10000).skip(i*10000)30个进程并发计算，一个进程负责1万份的量级。简单测试了下读取速度，非常快，几
复制链接

扫一扫

专栏目录