原创:小马哥的Python后端工程师小李哥。
文本索引能解决快速文本查找的需求,比如有一个博客文章集合,需要根据博客的内容来快速查找,则可以针对博客内容建立文本索引。
MongoDB支持在字符串内容上执行文本检索的查询操作。为了执行文本检索,它使用“text index”和“$text”操作符。
MongoDB提供的text indexes支持在字符串内容上的文本检索查询。它可以包括任何值为字符串或者字符串元素数组的字段。当然,为了执行文本检索查询,我们必须在集合上有一个 text 索引。一个集合只能拥有 一个文本检索索引,但是这个索引可以覆盖多个字段。
首先,我们先在数据库“stores”中新插入一条数据:
> db.stores.insert(
[
{ _id: 1, name: "Java Hut", description: "Coffee and cakes" },
{ _id: 2, name: "Burger Buns", description: "Gourmet hamburgers" },
{ _id: 3, name: "Coffee Shop", description: "Just coffee" },
{ _id: 4, name: "Clothes Clothes Clothes", description: "Discount clothing" },
{ _id: 5, name: "Java Shopping", description: "Indonesian goods" }
]
)
接下来,使用createIndex来启动name和description字段上的文本(text)检索。
> db.stores.createIndex({name: "text", description: "text"})
{
"createdCollectionAutomatically" : false,
"numIndexesBefore" : 1,
"numIndexesAfter" : 2,
"ok" : 1
}
$text 操作
该操作符可以在有text index的集合上执行文本检索。$text将会使用空格和标点符号作为分隔符对检索字符串进行分词, 并且对检索字符串中所有的分词结果进行一个逻辑上的 OR 操作。
现在,让我们通过该操作符来查寻数据中所有包含“coffee”,”shop”,“java”列表中任何词语的商店:
> db.stores.find({$text: {$search: "java coffee shop"}})
{ "_id" : 3, "name" : "Coffee Shop", "description" : "Just coffee" }
{ "_id" : 1, "name" : "Java Hut", "description" : "Coffee and cakes" }
{ "_id" : 5, "name" : "Java Shopping", "description" : "Indonesian goods" }
精确检索
可通过双引号(“ ”)包裹需要查找的内容。
下面查找所有包含“coffee shop”,“java”的数据,很明显,完全匹配这两者的只有一条数据;
> db.stores.find( { $text: { $search: "java "coffee shop"" } } )
{ "_id" : 3, "name" : "Coffee Shop", "description" : "Just coffee" }
词语排除
使用横杠(- )字符,将该字符放在不要的词语前,查询时可排除该词语。
下面查询所有包含“java”,“shop”,但不包含“coffee”的数据:
> db.stores.find( { $text: { $search: "java shop -coffee" } } )
{ "_id" : 5, "name" : "Java Shopping", "description" : "Indonesian goods" }
排序
我们需要知道,文本检索查询会对每个文档计算一个相关性分数,表明该文档与查询的匹配程度。而MongoDB会默认返回未经排序的数据结果,这样,让我们来对返回的结果进行排序,我们可以使用这个“相关性分数”来进行排序。
为了使用相关性分数进行排序,您必须显式地对 $meta 和 textScore 字段进行映射然后基于该字段进行排序。
> db.stores.find(
... { $text: { $search: "java coffee shop" } },
... { score: { $meta: "textScore" } }
... ).sort( { score: { $meta: "textScore" } } )
{ "_id" : 3, "name" : "Coffee Shop", "description" : "Just coffee", "score" : 2.25 }
{ "_id" : 1, "name" : "Java Hut", "description" : "Coffee and cakes", "score" :1.5 }
{ "_id" : 5, "name" : "Java Shopping", "description" : "Indonesian goods", "score" : 1.5 }
$ meta:投影运算符为每个匹配的文档返回与查询关联的元数据(例如“ textScore”);
textScore:返回与每个匹配文档的相应 $ text 查询关联的分数。文字分数表示文档与搜索字词匹配的程度;如果未与 $ text查询一起使用,则返回分数。
在这次查询中,我们也多返回了表示分数的“score”,最终使用“.sort()”排序时可以看到,他们按照其高分数到低进行排列。
对于文本索引的介绍就到这里,MongoDB 还有很多种索引的方式,以后再慢慢跟大家介绍,希望你看了会有所收获,感谢阅读!