mongodb 使用心得

最新推荐文章于 2023-01-13 23:00:52 发布

liuyawen44

最新推荐文章于 2023-01-13 23:00:52 发布

阅读量415

点赞数

分类专栏：爬虫研究心得

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/liuyawen44/article/details/52725251

版权

爬虫研究心得专栏收录该内容

2 篇文章 0 订阅

订阅专栏

最近刚开始学MongoDB 想用它写一个爬虫，但是构建URL优先级队列的时候卡住了我，，好像BerkeleyDB存储的时候可以根据key自动排序，这样想要的数据会很容易取到，，（没有亲身实践过，并不太清楚，只是看了博客）但是MongoDB是不可以的，它默认的好像是按照插入时间排序，，，然而为了取出优先级比较高的URL，我不得不每次做排序并且Limit(n)返回数据，，但是尤其在多线程大数据下尤其影响性能！因此困扰了我一天，最后终于想出了一种折中的办法，，因为想到MongoDB会默认创建_id并生成索引，，我在构建优先URL 的时候把优先级储存到这个字段在做排序，性能会不会相对好很多？

于是我做了实验，db.collectionName.find({_id:1}).sort({_id:1}).explain()发现果然执行策略不是SORT！（具体参数含义请自行百度）这样性能应该会大幅提升，但是肯定性能也不会好~~具体情况等我写完后再来分享。。

另外，本人大三软件系菜狗一枚，最近在研究一些JAVA开源爬虫框架的源码，想自己写一个爬虫的框架，，也当是学点东西了。。有兴趣的可以一起交流。

企鹅：396995269 （单身）

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
mongodb 使用心得

最近刚开始学MongoDB 想用它写一个爬虫，但是构建URL优先级队列的时候卡住了我，，好像BerkeleyDB存储的时候可以根据key自动排序，这样想要的数据会很容易取到，，（没有亲身实践过，并不太清楚，只是看了博客）但是MongoDB是不可以的，它默认的好像是按照插入时间排序，，，然而为了取出优先级比较高的URL，我不得不每次做排序并且Limit(n)返回数据，，但是尤其在多线程大数据下尤其影
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。