最近公司有一个项目,数据库用的是 MongoDB,其中一个 Collection 的有 1300 万条数据,需求中需要对这个 Collection 支持指定 field 和 keyword 的搜索功能。一开始的实现就是简单的 and 查询的追加,但是发现查询速度很慢,需要优化。MongoDB 的查询慢不是一直都能体现出来,只有在查询的语句比较复杂或者查询出来的结果比较少比较靠后的情况下才会出现。
例如下面 2 种模糊查询的情况:
db.getCollection('mapping').find({"mapName":{"$regex": '.*office.*'}}).limit(50),这个查询 3s 左右出来结果,因为有大量数据可以匹配这个查询,MongoDB查找到 50 条数据后就不会继续往下查找了;
db.getCollection('mapping').find({"mapName":{"$regex": '.*microsoft office.*'}}).limit(50),这个查询要 20s 以上才能出结果,因为能够匹配的数据量少,MongoDB 会一直往下查询直到找到 50 条为止。
尝试在网上找了一些解决方案,下面是一些收获。
# 创建索引,并强制命中索引
单独为某个字段添加索引,如果是精确查询,带来的性能提升是很大的。但是目前 cms-backend 查询的实现方式是用正则来模糊匹配的,基于正则的模糊匹配不会命中索引,但是 可以通过 hint 来强制命中索引。
例如,查询 mapping 表的 mapName 字段: