MongoDB入门---全文检索&正则表达式

最新推荐文章于 2024-06-04 12:00:00 发布

luyaran

最新推荐文章于 2024-06-04 12:00:00 发布

阅读量2.3k

点赞数 3

分类专栏：原创 php、shell、python、mysql、MongoDB等技术学习之路 MongoDB学习之路文章标签： MongoDB 正则表达式全文检索

本文链接：https://blog.csdn.net/luyaran/article/details/79851416

版权

原创同时被 3 个专栏收录

868 篇文章 9 订阅

订阅专栏

php、shell、python、mysql、MongoDB等技术学习之路

88 篇文章 9 订阅

订阅专栏

MongoDB学习之路

16 篇文章 6 订阅

订阅专栏

这次呢，我们就来看一个比较好玩的东西，那就是全文检索。这个东西呢，可以提高搜索效率，对于我们这些开发者或者DB来说，都是比较重要的。接下来，我们就来看一下它的定义。全文检索对每一个词建立一个索引，指明该词在文章中出现的次数和位置，当用户查询时，检索程序就根据事先建立的索引进行查找，并将查找的结果反馈给用户的检索方式。这个过程类似于通过字典中的检索字表查字的过程。MongoDB 从 2.4 版本开始支持全文检索，目前支持15种语言(暂时不支持中文)的全文索引。

danish
dutch
english
finnish
french
german
hungarian
italian
norwegian
portuguese
romanian
russian
spanish
swedish
turkish

接下来，我们就来启用全文检索。MongoDB 在 2.6 版本以后是默认开启全文检索的，如果你使用之前的版本，你需要使用以下代码来启用全文检索：

>db.adminCommand({setParameter:true,textSearchEnabled:true})

或者使用命令：

mongod --setParameter textSearchEnabled=true

然后呢，我们就来创建全文检索的索引。首先我们考虑以下 posts 集合的文档数据，包含了文章内容（post_text）及标签(tags)：

{
   "post_text": "enjoy the mongodb articles on luyaran",
   "tags": [
      "mongodb",
      "luyaran"
   ]
}

我们可以对 post_text 字段建立全文索引，这样我们可以搜索文章内的内容：

>db.posts.ensureIndex({post_text:"text"})

接下来我们就要开始来使用这个全文索引了。我们已经对 post_text 建立了全文索引，我们可以搜索文章中的关键词 luyaran：

>db.posts.find({$text:{$search:"luyaran"}})

上面的命令返回了如下包含 runoob 关键词的文档数据：

{ 
   "_id" : ObjectId("53493d14d852429c10000002"), 
   "post_text" : "enjoy the mongodb articles on luyaran", 
   "tags" : [ "mongodb", "luyaran" ]
}

如果你使用的是旧版本的 MongoDB，你可以使用以下命令：

>db.posts.runCommand("text",{search:"runoob"})

接下来，我们就要删除已存在的全文索引。首先，我们可以使用 find 命令查找索引名：

>db.posts.getIndexes()

通过以上命令获取索引名，本例的索引名为post_text_text，执行以下命令来删除索引：

>db.posts.dropIndex("post_text_text")

完事呢，就要到正则表达式这一块儿了。先来了解一下。首先，正则表达式是使用单个字符串来描述、匹配一系列符合某个句法规则的字符串。许多程序设计语言都支持利用正则表达式进行字符串操作。然后呢，MongoDB 使用 $regex 操作符来设置匹配字符串的正则表达式。我们要知道，MongoDB使用PCRE (Perl Compatible Regular Expression) 作为正则表达式语言。不同于全文检索，我们使用正则表达式不需要做任何配置。接下来，我们还参照全文检索中的那个例子：

{
   "post_text": "enjoy the mongodb articles on luyaran",
   "tags": [
      "mongodb",
      "luyaran"
   ]
}

接下来，就要开始使用正则表达式了。我们可以使用以下命令使用正则表达式查找包含 luyaran 字符串的文章：

>db.posts.find({post_text:{$regex:"luyaran"}})

同时呢，上面的查询也可以写为：

>db.posts.find({post_text:/runoob/})

我们都知道，在正则表达式里，对于大小写的要求是非常严格的。那么，在MongoDB中呢？接下来我们就来看一下MongoDB中的不需要区分大小写的正则表达式。如果检索需要不区分大小写，我们可以设置 $options 为 $i。以下命令将查找不区分大小写的字符串 luyaran ：

>db.posts.find({post_text:{$regex:"luyaran",$options:"$i"}})

集合中会返回所有包含字符串 luyaran 的数据，且不区分大小写：

{
   "_id" : ObjectId("53493d37d852429c10000004"),
   "post_text" : "hey! this is my post on  luyaran", 
   "tags" : [ "luyaran" ]
}

好的，咱们再来看一个比较神奇的正则表达式，那就是数组元素使用正则表达式。如果可以在数组字段中使用正则表达式来查找内容，那么在标签的实现上非常有用。下面的实例是查找包含以 luy 开头的标签数据(lu 或 luy 或 luyaran)：

>db.posts.find({tags:{$regex:"luy"}})

接下来我们就来看一个老生常谈的话题，优化正则表达式：

如果文档中字段设置了索引，那么使用索引相比于正则表达式匹配查找所有的数据查询速度更快。
如果正则表达式是前缀表达式，所有匹配的数据将以指定的前缀字符串为开始。例如：如果正则表达式为 ^tut ，查询语句将查找以 tut 为开头的字符串。

这里面使用正则表达式，有两点需要注意，首先是正则表达式中使用变量。一定要使用eval将组合的字符串进行转换，不能直接将字符串拼接后传入给表达式。否则没有报错信息，只是结果为空！实例如下：

var name=eval("/" + 变量值key +"/i");

其次就是模糊查询包含title关键词, 且不区分大小写：

title:eval("/"+title+"/i")    // 等同于 title:{$regex:title,$Option:"$i"}

好啦，分享到这里就结束了，感谢大家欣赏，如果感觉不错的话，请多多点赞支持哦。。。

luyaran

关注

3
点赞
踩
2

收藏

觉得还不错? 一键收藏
打赏
0
评论
MongoDB入门---全文检索&正则表达式

这次呢，我们就来看一个比较好玩的东西，那就是全文检索。这个东西呢，可以提高搜索效率，对于我们这些开发者或者DB来说，都是比较重要的。接下来，我们就来看一下它的定义。全文检索对每一个词建立一个索引，指明该词在文章中出现的次数和位置，当用户查询时，检索程序就根据事先建立的索引进行查找，并将查找的结果反馈给用户的检索方式。这个过程类似于通过字典中的检索字表查字的过程。MongoDB 从 2.4 ...
复制链接

扫一扫