22.MongoDB删除操作效率及相关问题验证

焱齿

已于 2023-12-10 10:48:50 修改

阅读量2.4k

点赞数 3

分类专栏： mongodb 文章标签： mongodb 数据库

于 2022-12-17 19:27:28 首次发布

本文链接：https://blog.csdn.net/mijichui2153/article/details/127534461

版权

mongodb 专栏收录该内容

20 篇文章 10 订阅

订阅专栏

最近遇到一个了一个MongoDB数据删除的问题，需要一次性删除上线即1.5年前~1年前的数据且之后每天清空一年过期的数据。在数据量比较大的情况下何种方式的删除效率最高是一个值得研究的问题，本文通过实际测试找出其中规律。

本文采用腾讯云mongodb集群进行验证。mongd配置较弱为2核4G，验证仅仅针对副本集不涉及分片集群。测试数据集如下，共计1000w条数据。接下来会以systime字段作为筛选条件验证影响删除操作耗时的因素都有哪些。

kfuin_beg = 0
kfuin_end = 1
for(var num = kfuin_beg; num < kfuin_end; num++){
    var kfuin_num = num+1;//主号数
    var cid_num = 10000 //1万个cid
    var session_num = 10//每个cid有10通会话
    var detail_num = 99//每个session有9条消息
    var docs = [];
    for(var i = num; i < kfuin_num; i++){
        for(var j = 0; j < cid_num; j++){
            for(var k = 0; k < session_num; k++){ 
                var kfuin_val = i + 2852000000
                var session_index_name_val = "event_session_" + kfuin_val.toString() + "_wx58b4690f0ab8193f-" + j.toString()
                var session_id_val = "session_id" + "_wx58b4690f0ab8193f-" + j.toString() + "_" +(k).toString()
                var systime_val = 1600000000000000 + j*10000 + k*1000
                docs.push({kfuin:kfuin_val,key:session_index_name_val,session_id:session_id_val,systime:systime_val})
                for(var h = 0; h < detail_num; h++){ 
                    var detail_index_val = "event_detail_" + kfuin_val.toString() + "_wx58b4690f0ab8193f-" + j.toString()
                    systime_val = 1600000000000000 + j*10000 + k*1000 + h
                    docs.push({kfuin:kfuin_val,key:detail_index_val,session_id:session_id_val,systime:systime_val})
                }
            }
            print("complete cid!!")
        }
    }
    print("insert docs!!")
    db.coll.save(docs)
}

零、MongoDB存储于删数据不释放空间？

1、MongoDB 3.6版本之后默认使用的存储引擎是WiredTiger。

①这个引擎有个特点，那就是remove删除数据不释放空间。举个例子：你现在的集合里面有1亿条数据，占用10G空间；即便你删除了其中的99999999条数据都删了，其占用的空间仍然是10GB。

②如果想彻底释放空间，最直接的方法就是删除整个集合(db.coll_0.drop())或者删除整个数据库(dropDatabases())。

③虽然磁盘利用率下不来但是对于新插入的数据只要总数据大小不超过10GB前，MongoDB都不会申请额外的硬盘空间。注：上面会有一些碎片无法完全回收，即对于“每天定时删除180d前数据这个场景”磁盘利用率还是会增长的，只不过速度会慢很多。

④如果你的MongoDB允许暂停读写操作，可以在Mongo Shell中使用compact命令释放空间。命令格式如下。

db.runCommand({'compact': '集合名'})

在MongoDB 4.4之前的版本，compact会阻塞整个库的增删改查操作，所以需要业务允许暂停全部读写才能执行；在4.4版本之后，compact命令几乎可以在除了删除集合、增删索引外的任何时候执行。

注：这是一个高危的操作，一定要充分验证/慎重。。。。。
https://www.mongodb.com/docs/manual/reference/command/compact/#dbcmd.compact

2、Mongo底层数据是如何存储的？

一个collection对应一个存储文件，同样的一个索引也对应一个单独的文件。

3、为什么drop的删除方式比remove快这么多？

remove 是对一条一条数据的逻辑删除，所以很慢。 drop 操作之间删除底层的数据库文件，然后清理一下元数据，涉及的操作很少，因此很快。

一、remove和deleteMany的区别

直接抛结论：就耗时方面似乎没有什么区别！！！

二、remove操作的耗时验证

1、无systime字段索引的删除测试

（0）访问某条具体的数据

db.coll.find({systime:1600000000022002}) 

耗时5s

（1）删除某条具体的数据

db.coll.remove({systime:1600000000022002})

耗时5s

结论：显然这个耗时是定位这条目标数据的耗时。

（2）删除其中的50W条数据

db.coll.find({systime:{"$lte":1600000005000000}}).count()
db.coll.remove({systime:{"$lte":1600000005000000}})  
#耗时19s  注:大概就是遍历用5秒+加上删除50w数据需要了14s。

结论：这个耗时应该是遍历数据用了5秒,删除50w数据用了14s。

（3）删除其中的450w条数据

db.coll.find({systime:{"$lte":1600000050000000}}).count()  
db.coll.remove({systime:{"$lte":1600000050000000}})   
#耗时190s  注:主要还是删除数据的耗时

2、有systime字段索引的删除测试

准备：创建systime字段的索引

db.coll.createIndex({systime:1})

（0）访问某条具体的数据

db.coll.find({systime:1600000000022002}) 
#瞬间 耗时1ms

（1）删除某条具体的数据

db.coll.remove({systime:1600000000022002})
#瞬间  耗时1ms

结论：很容易理解。有索引所以瞬间定位到删除目标消息，删除的仅仅是一条所以删除操作也很快。

（2）删除其中的50W条数据

db.coll.find({systime:{"$lte":1600000005000000}}).count()
db.coll.remove({systime:{"$lte":1600000005000000}})  
#耗时15s  注:应该大部分时间都是删除消耗的;

（3）删除其中的450w条数据

db.coll.find({systime:{"$lte":1600000050000000}}).count() 
db.coll.remove({systime:{"$lte":1600000050000000}})   
#185秒  注:systime索引带来的负担还好诶;但是也确实意义不大。

结论：如果只是一个systime字段的索引给删除带来的负担感觉还好。

3、更多索引对删除效率的影响

准备：累计创建如下四个索引

db.coll.createIndex({systime:1})
db.coll.createIndex({kfuin:1})
db.coll.createIndex({key:1})
db.coll.createIndex({key:1,systime:1})

（1）删除其中的50w条数据

db.coll.find({systime:{"$lte":1600000005000000}}).count()
db.coll.remove({systime:{"$lte":1600000005000000}})  
#耗时22s  注:过多的索引确实会对删除效率产生负面影响,这个额外的三个索引是耗时变为原来的1.5倍左右。

（2）删除其中的450w条数据

db.coll.find({systime:{"$lte":1600000050000000}}).count() 
db.coll.remove({systime:{"$lte":1600000050000000}})   
#250秒 注:过多的索引确实会对删除效率产生负面影响,这个额外的三个索引是耗时变为原来的1.5倍左右。

结论：过多的索引确实会对删除效率造成影响；对于测试中额外多增加了三个索引删除耗时约为没有这三个索引的1.3~1.5倍左右。