MongoDB自我学习（一）基础知识学习

最新推荐文章于 2024-04-20 08:28:25 发布

lwd2307997664

最新推荐文章于 2024-04-20 08:28:25 发布

阅读量305

点赞数 1

分类专栏： MongoDB 文章标签：数据库 mongodb

本文链接：https://blog.csdn.net/lwd2307997664/article/details/114299360

版权

MongoDB 专栏收录该内容

6 篇文章 0 订阅

订阅专栏

MongoDB自我学习（一）基础知识学习

文章目录

MongoDB自我学习（一）基础知识学习
前言
一、MongoDB是什么？
二、数据库特点
三、数据库基础
四、数据库基础类型了解

前言

自我学习一下MongoDB,目前工作汇总没有应用到该文档数据库。

一、MongoDB是什么？

MongoDB是一款强大、灵活、且易于扩展的通用型数据库
MongoDB 是由C++语言编写的，是一个基于分布式文件存储的开源数据库系统。
在高负载的情况下，添加更多的节点，可以保证服务器性能。
MongoDB 旨在为WEB应用提供可扩展的高性能数据存储解决方案。
MongoDB 将数据存储为一个文档，数据结构由键值(key=>value)对组成。MongoDB >文档类似于 JSON 对象。字段值可以包含其他文档，数组及文档数组。

二、数据库特点

1、易用性
2、易扩展性
3、丰富的功能
4、卓越的性能

1、易用性

1）MongoDB是一个面向文档（document-oriented）的数据库，而不是关系型数据库。
不采用关系型主要是为了获得更好得扩展性。当然还有一些其他好处，与关系数据库相比，面向文档的数据库不再有“行“（row）的概念取而代之的是更为灵活的“文档”（document）模型。通过在文档中嵌入文档和数组，面向文档的方法能够仅使用一条记录来表现复杂的层级关系，这与现代的面向对象语言的开发者对数据的看法一致。
2）另外，不再有预定义模式（predefined schema）：文档的键（key）和值（value）不再是固定的类型和大小。由于没有固定的模式，根据需要添加或删除字段变得更容易了。通常由于开发者能够进行快速迭代，所以开发进程得以加快。而且，实验更容易进行。开发者能尝试大量的数据模型，从中选一个最好的。

2、易扩展性

由于需要存储的数据量不断增长，开发者面临一个问题：应该如何扩展数据库，分为纵向扩展和横向扩展.
1).纵向扩展是最省力的做法，但缺点是大型机一般都非常贵，而且当数据量达到机器的物理极限时，花再多的钱也买不到更强的机器了，此时选择横向扩展更为合适，但横向扩展带来的另外一个问题就是需要管理的机器太多。
2).MongoDB的设计采用横向扩展。面向文档的数据模型使它能很容易地在多台服务器之间进行数据分割。MongoDB能够自动处理跨集群的数据和负载，自动重新分配文档，
以及将用户的请求路由到正确的机器上。这样，开发者能够集中精力编写应用程序，而不需要考虑如何扩展的问题。如果一个集群需要更大的容量，只需要向集群添加新服务器，MongoDB就会自动将现有的数据向新服务器传送

3、丰富的功能

MongoDB作为一款通用型数据库，除了能够创建、读取、更新和删除数据之外，还提供了一系列不断扩展的独特功能
1、索引
支持通用二级索引，允许多种快速查询，且提供唯一索引、复合索引、地理空间索引、全文索引
2、聚合
支持聚合管道，用户能通过简单的片段创建复杂的集合，并通过数据库自动优化
3、特殊的集合类型
支持存在时间有限的集合，适用于那些将在某个时刻过期的数据，如会话session。类似地，MongoDB也支持固定大小的集合，用于保存近期数据，如日志
4、文件存储
支持一种非常易用的协议，用于存储大文件和文件元数据。MongoDB并不具备一些在关系型数据库中很普遍的功能，如链接join和复杂的多行事务。省略
这些的功能是处于架构上的考虑，或者说为了得到更好的扩展性，因为在分布式系统中这两个功能难以高效地实现

4、卓越的性能

MongoDB的一个主要目标是提供卓越的性能，这很大程度上决定了MongoDB的设计。MongoDB把尽可能多的内存用作缓存cache，视图为每次查询自动选择正确的索引。总之，各方面的设计都旨在保持它的高性能。虽然MongoDB非常强大并试图保留关系型数据库的很多特性，但它并不追求具备关系型数据库的所有功能。只要有可能，数据库服务器就会将处理逻辑交给客户端。这种精简方式的设计是MongoDB能够实现如此高性能的原因之一。

三、数据库基础

sql术语	MongoDB术语	解释
database	database	数据库
table	collection	数据库表/集合
row	document	数据库行/文档
column	field	数据库列/域
index	index	索引
primaryKey	primaryKey	主键，MongoDB自动将_id设为主键

1、文档是MongoDB的核心概念。文档就是键值对的一个有序集

需要注意的是：

1、文档中的键/值对是有序的。
2、文档中的值不仅可以是在双引号里面的字符串，还可以是其他几种数据类型（甚至可以是整个嵌入的文档)。
3、MongoDB区分类型和大小写。
4、MongoDB的文档不能有重复的键。
5、文档中的值可以是多种不同的数据类型，也可以是一个完整的内嵌文档。文档的键是字符串。除了少数例外情况，键可以使用任意UTF-8字符。

文档键命名规范：

1、键不能含有\0 (空字符)。这个字符用来表示键的结尾。
2、.和$有特别的意义，只有在特定环境下才能使用。
3、以下划线"_"开头的键是保留的(不是严格要求的)。

2、集合就是一组文档。如果将MongoDB中的一个文档比喻为关系型数据的一行，那么一个集合就是相当于一张表

1、集合存在于数据库中，通常情况下为了方便管理，不同格式和类型的数据应该插入到不同的集合，但其实集合没有固定的结构，这意味着我们完全可以把不同格式和类型的数据统统插入一个集合中。

2、组织子集合的方式就是使用“.”，分隔不同命名空间的子集合。
a…person和a.company，这是为了使组织结构更清晰，这里的a集合（这个集合甚至不需要存在）跟它的两个子集合没有任何关系。
在MongoDB中，使用子集合来组织数据非常高效，值得推荐

3、当第一个文档插入时，集合就会被创建。合法的集合名：
集合名不能是空字符串""。
集合名不能含有\0字符（空字符)，这个字符表示集合名的结尾。
集合名不能以"system."开头，这是为系统集合保留的前缀。
用户创建的集合名字不能含有保留字符。有些驱动程序的确支持在集合名里面包含，这是因为某些系统生成的集合中包含该字符。除非你要访问这种系统创建的集合，否则千万不要在名字里出现$。

3、数据库：在MongoDB中，多个文档组成集合，多个集合可以组成数据库

数据库也通过名字来标识。数据库名可以是满足以下条件的任意UTF-8字符串：

1、不能是空字符串（"")。
2、不得含有’ '（空格)、.、$、/、\和\0 (空字符)。
3、应全部小写。
4、最多64字节。

有一些数据库名是保留的，可以直接访问这些有特殊作用的数据库。

1、admin：从身份认证的角度讲，这是“root”数据库，如果将一个用户添加到admin数据库，这个用户将自动获得所有数据库的权限。再者，一些特定的服务器端命令也只能从admin数据库运行，如列出所有数据库或关闭服务器
2、local: 这个数据库永远都不可以复制，且一台服务器上的所有本地集合都可以存储在这个数据库中
3、config: MongoDB用于分片设置时，分片信息会存储在config数据库

4、强调：把数据库名添加到集合名前，得到集合的完全限定名，即命名空间

例如：

如果要使用first数据库中的a.person集合，这个集合的命名空间就是
first.a.person。命名空间的长度不得超过121个字节，且在实际使用中应该小于100个字节

四、数据库基础类型了解

1、在概念上，MongoDB的文档与Javascript的对象相近，因而可以认为它类似于JSON。JSON（http://www.json.org）是一种简单的数据表示方式：其规范仅用一段文字就能描述清楚（其官网证明了这点），且仅包含六种数据类型。

2、这样有很多好处：易于理解、易于解析、易于记忆。然而从另一方面说，因为只有null、布尔、数字、字符串、数字和对象这几种数据类型，所以JSON的表达能力有一定的局限。

3、虽然JSON具备的这些类型已经具有很强的表现力，但绝大数应用（尤其是在于数据库打交道时）都还需要其他一些重要的类型。例如，JSON没有日期类型，这使得原本容易日期处理变得烦人。另外，JSON只有一种数字类型，无法区分浮点数和整数，更别区分32位和64位了。再者JSON无法表示其他一些通用类型，如正则表达式或函数。

4、MongoDB在保留了JSON基本键/值对特性的基础上，添加了其他一些数据类型。在不同的编程语言下，这些类型的确切表示有些许差异。下面说明了MongoDB支持的其他通用类型，以及如何正在文档中使用它们.

5举例数据类型
1、null：用于表示空或不存在的字段
d={‘x’:null}
2、布尔型：true和false
d={‘x’:true,‘y’:false}
3、数值
d={‘x’:3,‘y’:3.1415926}
4、字符串
d={‘x’:‘egon’}
5、日期
d={‘x’:new Date()}
d.x.getHours()
6、正则表达式
d={‘pattern’:/^egon.*?nb$/i}
正则写在／／内，后面的i代表:
i 忽略大小写
m 多行匹配模式
x 忽略非转义的空白字符
s 单行匹配模式
7、数组
d={‘x’:[1,‘a’,‘v’]}
8、内嵌文档
user={‘name’:‘egon’,‘addr’:{‘country’:‘China’,‘city’:‘YT’}}
user.addr.country
9、对象id:是一个12字节的ID,是文档的唯一标识，不可变
d={‘x’:ObjectId()}

6.ObjectId与_id
MongoDB中存储的文档必须有一个"_id"键。这个键的值可以是任意类型，默认是个ObjectId对象。在一个集合里，每个文档都有唯一的“_id”,确保集合里每个文档都能被唯一标识。不同集合"_id"的值可以重复，但同一集合内"_id"的值必须唯一
1)、ObjectId
ObjectId是"_id"的默认类型。因为设计MongoDb的初衷就是用作分布式数据库，所以能够在分片环境中生成唯一的标识符非常重要，而常规的做法：在多个服务器上同步自动增加主键既费时又费力，这就是MongoDB采用ObjectId的原因。
ObjectId采用12字节的存储空间，是一个由24个十六进制数字组成的字符串
0|1|2|3| 4|5|6| 7|8 9|10|11
时间戳机器 PID 计数器
如果快速创建多个ObjectId，会发现每次只有最后几位有变化。另外，中间的几位数字也会变化（要是在创建过程中停顿几秒）。
这是ObjectId的创建方式导致的，如上图,时间戳单位为秒，与随后5个字节组合起来，提供了秒级的唯一性。这个4个字节隐藏了文档的创建时间，绝大多数驱动程序都会提供
一个方法，用于从ObjectId中获取这些信息。因为使用的是当前时间，很多用户担心要对服务器进行时钟同步。其实没必要，因为时间戳的实际值并不重要，只要它总是不停增加就好。接下来3个字节是所在主机的唯一标识符。通常是机器主机名的散列值。这样就可以保证不同主机生成不同的ObjectId，不产生冲突,接下来连个字节确保了在同一台机器上并发的多个进程产生的ObjectId是唯一的,前9个字节确保了同一秒钟不同机器不同进程产生的ObjectId是唯一的。最后3个字节是一个自动增加的计数器。确保相同进程的同一秒产生的ObjectId也是不一样的。
2)、自动生成_id
如果插入文档时没有"_id"键，系统会自帮你创建一个。可以由MongoDb服务器来做这件事。但通常会在客户端由驱动程序完成。这一做法非常好地体现了MongoDb的哲学：能交给客户端驱动程序来做的事情就不要交给服务器来做。
这种理念背后的原因是：即便是像MongoDB这样扩展性非常好的数据库，扩展应用层也要比扩展数据库层容易的多。将工作交给客户端做就减轻了数据库扩展的负担。