MongoDB使用详解_2_索引与聚合

shstart7

已于 2022-06-07 09:57:36 修改

阅读量1.5k

点赞数

分类专栏： MongoDB 文章标签： mongodb 数据库 nosql 索引聚合

于 2022-06-07 09:54:02 首次发布

本文链接：https://blog.csdn.net/qq_46312987/article/details/125159652

版权

MongoDB 专栏收录该内容

4 篇文章

订阅专栏

本文详细介绍了MongoDB中的索引概念，包括其作用、创建方式、过期设置以及不同类型的索引操作。同时，讲解了MongoDB的聚合操作，包括聚合表达式、管道操作符如$project、$match、$skip等，以及如何使用聚合来统计和过滤数据。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1.索引

1.1索引介绍

索引通常能够极大的提高查询的效率，如果没有索引, MongoDB在读取数据时必须扫描集合中的每个文件并选取那些符合查询条件的记录。这种扫描全集合的查询效率是非常低的，特别在处理大量的数据时，查询可以要花费几十秒甚至几分钟，这对网站的性能是非常致命的。索引是特殊的数据结构，索引存储在一个易于遍历读取的数据集合中，索引是对数据库表中一列或多列的值进行排序的一种结构

示意图

MongoDB 的索引是基于 B-Tree(非B+Tree) 数据结及对应算法形成的

在这里插入图片描述

从根本上来说，MongoDB中的索引与其他数据库中的索引类似，MongoDB在集合层面上定义了索引，并支持对MongoDB集合中的任何字段或文章的子字段进行索引。

默认_id索引 (类似MySQL主键索引)

MongoDB 在创建集合期间在 _id 字段上创建唯一索引。 _id 索引可防止客户端插入两个具有相同 _id 字段值的文档。您不能在 _id 字段上删除此索引

注意：

在分片集群中，如果不使用 _id 字段作为分片键，那么您的应用程序必须确保 _id 字段中的值的唯一性以防止错误。这通常通过使用标准的自动生成的 ObjectId 来完成

1.2创建索引

> db.集合名称.createIndex(keys, options)

-- 举例 创建一个A和B的联合索引 1表示按照升序创建索引，-1表示按照降序创建索引
> db.集合名称.createIndex({A:1,B:-1})

createIndex() 接收可选参数，可选参数列表如下：

在这里插入图片描述

实例

在后台创建索引：

> db.values.createIndex({open: 1, close: 1}, {background: true})

1.3过期expireAfterSeconds详解

利用 TTL 集合对存储的数据进行失效时间设置：经过指定的时间段后或在指定的时间点过期，MongoDB 独立线程去清除数据。类似于设置定时自动删除任务，可以清除历史记录或日志等前提条件，设置 Index 的关键字段为日期类型 new Date()。

第一种使用，设置XX秒后失效

注意：数据无论是在创建失效索引之前就存在的，还是在创建完索引后插入的，经过指定的时间都会被删除。

测试

先插入数据后创建索引

在这里插入图片描述

先创建索引，后添加数据

在这里插入图片描述

第二种

由文档中设定的日期进行删除

设置 A 记录在 2019 年 1 月 22 日晚上 11 点左右删除，A 记录中需添加 “ClearUpDate”: new Date(‘Jan 22, 2019 23:00:00’)，且 Index中expireAfterSeconds 设值为 0。

> db.col.createIndex({"ClearUpDate": 1},{expireAfterSeconds: 0})

其他注意事项:

索引关键字段必须是 Date 类型。
非立即执行：扫描 Document 过期数据并删除是独立线程执行，默认 60s 扫描一次，删除也不一定是立即删除成功。
单字段索引，混合索引不支持。

1.4其他操作

1、查看集合索引

> db.col.getIndexes()

2、查看集合索引大小

> db.col.totalIndexSize()

3、删除集合所有索引

> db.col.dropIndexes()

4、删除集合指定索引

> db.col.dropIndex("索引名称")

1.5复合索引

说明：一个索引的值是由多个key进行维护的索引称之为符合索引(跟MySQL中的联合索引类似) 由于MongoDB的索引是一颗B-Tree，所以跟MySQL的B+Tree索引的很多特点相同，比如也符合最左前缀原则，覆盖索引等，所以这里就不过多的描述.

-- 创建一个A和B的复合索引都是升序
> db.集合名称.createIndex({A:1, B:1})

2.聚合操作

参考菜鸟教程

2.1聚合表达式

MongoDB 中聚合(aggregate)主要用于处理数据(诸如统计平均值，求和等)，并返回计算后的数据结果。

基本语法

> db.集合名称.aggregate(AGGREGATE_OPERATION)

实例

集合中的数据

{
   _id: ObjectId(7df78ad8902c)
   title: 'MongoDB Overview', 
   description: 'MongoDB is no sql database',
   by_user: 'runoob.com',
   url: 'http://www.runoob.com',
   tags: ['mongodb', 'database', 'NoSQL'],
   likes: 100
},
{
   _id: ObjectId(7df78ad8902d)
   title: 'NoSQL Overview', 
   description: 'No sql database is very fast',
   by_user: 'runoob.com',
   url: 'http://www.runoob.com',
   tags: ['mongodb', 'database', 'NoSQL'],
   likes: 10
},
{
   _id: ObjectId(7df78ad8902e)
   title: 'Neo4j Overview', 
   description: 'Neo4j is no sql database',
   by_user: 'Neo4j',
   url: 'http://www.neo4j.com',
   tags: ['neo4j', 'database', 'NoSQL'],
   likes: 750
},

现在我们通过以上集合计算每个作者所写的文章数，使用aggregate()计算结果如下：

-- $group固定写法
-- _id固定写法，非文档中的_id属性，这里表示的是按照哪个字段进行分组
-- $by_user 表示按照by_user字段进行分组
-- num_tutorial，自定义查询结果属性名称
-- $sum 聚合函数,更多参考下面
> db.mycol.aggregate([{$group : {_id : "$by_user", num_tutorial : {$sum : 1}}}])
{
   "result" : [
      {
         "_id" : "runoob.com",
         "num_tutorial" : 2
      },
      {
         "_id" : "Neo4j",
         "num_tutorial" : 1
      }
   ],
   "ok" : 1
}

以上实例类似sql语句

 select by_user, count(*) from mycol group by by_user

聚合表达式

在上面的例子中，我们通过字段 by_user 字段对数据进行分组，并计算 by_user 字段相同值的总和。

下表展示了一些聚合的表达式:

在这里插入图片描述

2.3管道操作符实例

管道在Unix和Linux中一般用于将当前命令的输出结果作为下一个命令的参数。

MongoDB的聚合管道将MongoDB文档在一个管道处理完毕后将结果传递给下一个管道处理。管道操作是可以重复的。

表达式：处理输入文档并输出。表达式是无状态的，只能用于计算当前聚合管道的文档，不能处理其它的文档。

这里我们介绍一下聚合框架中常用的几个操作：

$project：修改输入文档的结构。可以用来重命名、增加或删除域，也可以用于创建计算结果以及嵌套文档。
$match：用于过滤数据，只输出符合条件的文档。$match使用MongoDB的标准查询操作。
$limit：用来限制MongoDB聚合管道返回的文档数。
$skip：在聚合管道中跳过指定数量的文档，并返回余下的文档。
$unwind：将文档中的某一个数组类型字段拆分成多条，每条包含数组中的一个值。
$group：将集合中的文档分组，可用于统计结果。
$sort：将输入文档排序后输出。
$geoNear：输出接近某一地理位置的有序文档。

操作实例

1、$project实例

db.article.aggregate(
    { $project : {
        title : 1 ,
        author : 1 ,
    }}
 );

这样的话结果中就只还有_id,tilte和author三个字段了，默认情况下_id字段是被包含的，如果要想不包含_id话可以这样:

db.article.aggregate(
    { $project : {
        _id : 0 ,
        title : 1 ,
        author : 1
    }});

2.$match实例

db.articles.aggregate( [
                        { $match : { score : { $gt : 70, $lte : 90 } } },
                        { $group: { _id: null, count: { $sum: 1 } } }
                       ] );

$m a t c h 用于获取分数大于 70 小于或等于 90 记录，然后将符合条件的记录送到下一阶段$ group管道操作符进行处理。

3.$skip实例

db.article.aggregate(
    { $skip : 5 });