mongodb遍历万亿级数据，论索引的重要性

最新推荐文章于 2024-08-08 05:02:47 发布

carterslam

最新推荐文章于 2024-08-08 05:02:47 发布

阅读量3.6k

点赞数

分类专栏： mongodb 文章标签： mongodb 索引

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/carterslam/article/details/78789704

版权

mongodb 专栏收录该内容

6 篇文章 0 订阅

订阅专栏

【背景】有160万用户账号数据，200万终端账号数据，需要在160万用户账号数据中排除所有账号数据，那就需要遍历 160万 * 200万 = 3200000000000 次运算，3万2000亿次！

用mongodbimport的upsert 命令

mongoimport --db xxx --host xxx --port 27017 --username xxx--password xxx --collection xxx --type csv --headerline --upsertFields uid --file /data/xxx/xxx.csv --numInsertionWorkers 8

这个命令会把找到的数据替换调，举例：原有集合 uid，aa，bb xxx.csv 里面的数据 uid,cc 这个命令执行之后，新的集合数据为 uid，cc 数据被替换了，如果你想添加字段，弄成 uid，aa，bb，cc 这样，mongoimport这个命令貌似是不支持的，需要自己用程序实现。

言归正传，这个命令跑起来非常慢，一个小时更新几十k的数据，我突然想到用增加索引试一试，db.xxx.ensureIndex({"uid":1}); 没想到啊！这么命令执行之后，效果立竿见影，速度一下就上来了，剩下的数据，总共27.7MB （建序列之前，跑了2个多小时，跑了88KB） 40分钟跑完！

牛逼了！索引 32k亿次运算啊

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。