一、MongoDB的分片简介
分片(sharding)是指将数据拆分,将其分散存在不同的机器上的过程。有时也用分区(partitioning)来表示这个概念。分片(Sharding)技术是开发人员用来提高数据存储和数据读写吞吐量常用的技术之一。简单的来说,分片主要是将数据进行划分后,将它们分别存放于不同机器上的过程。通过使用分片可以实现降低单个机器的压力和处理更大的数据负载功能。分片与副本集主要区别在于,分片是每个节点存储数据的不同片段,而副本集是每个节点存储数据的相同副本。
所有数据库都可以进行手动分片(ManualSharding),因此,分片并不是MongoDB特有的。不同类型的数据均可以通过人为操作被分配到不同的数据库服务器上,然而,人工分片是需要编写相关代码来实现分片功能,并且还不容易维护(如集群中节点发生变动的情况)。MongoDB数据库可以实现自动分片,它内置了多种分片逻辑,使得MongoDB可以自动处理分片上数据的分布,也可以很容易的管理分片集群
MongoDB分片是MongoDB支持的另一种集群形式,它可以满足MongoDB数据量呈爆发式增长的需求。当MongoDB存储海量的数据时,一台机器可能无法满足数据存储的需求,也可能无法提供可接受的读写吞吐量,这时,我们就可以通过在多台机器上对海量数据进行划分(即分片),使得MongoDB数据库系统能够存储和处理更多的数据。
分片策略
MongoDB之所以能够实现自动分片,这是因为其内置了分片策略。MongoDB通过分片键(Shard Key)将集合中的数据划分为多个块(Chunk)(默认大小为64MB,每个块均表示集合中数据的一部分),然后MongoDB根据分片策略将划分的块分发到分片集群中。需要注意,分片键可以是集合文档中的一个或多个字段。
MongoDB的分片策略主要包括范围分片和哈希分片两种,介绍如下
范围分片
MongoDB根据分片键的值范围将数据划分为不同块,每个分片都包含了分片键在一定范围内的数据。这样的话,若有文档写入时,MongoDB会根据该文档的分片键,从而交由指定分片服务器去处理。下面,通过一张图来介绍范围分片策略,具体如图所示。
范围分片
MongoDB根据分片键的值范围将数据划分为不同块, 每个分片都包含了分片键在一定范围内的数据。
这样的话,若有文档写入时,MongoDB会根据该文档的分片键,从而交由指定分片服务器去处理。下面,通过一张图来介绍范围分片策略,具体如图所示。
从图中可以看出,若文档分片键的值范围在[minkey,10)中,则该文档需要交由分片服务器A进行相关处理;若文档分片键的值范围在[10,20)中,则该文档需要交由分片服务器B进行相关处理;若文档分片键的值范围在[20,maxKey)中,则该文档需要交由分片服务器C进行相关处理。
使用基于范围分片时,拥有相近分片键的文档会存储在同一个分片服务器中,从而提升范围查询的效率。但是,当插入批量文档时,分片键集中在一定范围内,就会导致数据分布不均匀,从而导致其中一个分片服务器负载过重。
哈希分片(Hash Sharding)
哈希分片类似于范围分片,两者的区别在于范围分片是MongoDB根据分片键的值直接进行范围划分,而哈希分片则先将分片键的值进行哈希计算后,然后对这些哈希值进行范围划分,从而使得每个分片都包含了哈希值在一定范围内的数据;范围分片可以支持复合分片键,而哈希分片只支持单个字段作为分片键,哈希值的随机性,使得数据随机分布在分片集群中不同分片服务器上。下面,通过一张图介绍哈希分片策略,如图所示。
二、分片的组成
--片
片是保存子集数据的容器,片可是单个Mongod服务器,也可以是副本集。
--mongos
mongos就是MongoDB各版本中都配的路由器进程。它路由所有请求,然后将结果聚合。它本身并不存储数据或者配置信息。
--配置服务器
配置服务器存储了集群的配置信息:数据和片的对应关系。Mongos不永久存放数据,所有需要个地方存放分片配置。它会从配置服务器获取同步数据。
使用的配置版本
OS:win10
MongoDB:4.4.24
伪分布式
三、分片结构
从图中可以看出,分片集群中主要由三个部分组成,即分片服务器( Shard )、路由服务器
( Mongos )以及配置服务器( Config Server )组成。其中,分片服务器有三个,即 Shard1 、
Shard2 、 Shard3 ;路由服务器有两个,即 Mongos1 和 Mongos2 ;配置服务器有三个,即主、副、副。
主要有如下所述三个主要组件:
Shard: 用于存储实际的数据块,实际生产环境中一个shard server 角色可由几台机器组个一个 replica set(副本集群) 承担,防止主机单点故障【3.6版本后必须配置成副本集群】
Config Server: mongod实例,存储了整个 ClusterMetadata ,其中包括 chunk 信息【3.4版本后必须部署成副本集群】。
Query Routers: 前端路由,客户端由此接入,且让整个集群看上去像单一数据库,前端应用可以透明使用。
四、手动操作
步骤一:环境准备
每一个分片都应该安装 MongoDB 实例,需要将 bin 文件复制到每个分片中, 并且创建data 文件以及 log 文件存放数据库数据和日志数据
每个shard包含两个实例,一主一从。
步骤二:启动分片服务 (实例)
启动分片集群shard1(shard11和shard12)
点击shard11然后进入数据库bin目录中,启动cmd
--shardsvr 为分片声明
当命令一直保持运行状态则说明服务运行成功,此服务为一次性服务,不要关闭此窗口,最小化即可。
shard12:如上所示
启动分片集群2(shard21和shard22)
shard21
shard22
步骤三:配置分片(shard1和shard2)集群
进入到shard1集群其中一个节点中
进入到shard2集群其中一个节点中,如上所示
到此,shard的两个集群配置好了
部署config server
步骤一:环境准备
值得注意的是:在 MongoDB 3。4 版本后 config 服务必须配置为 副本集,这里设置为一主一从。
两个实例共两个cmd窗口
启动Config1:
进入要分片的数据库bin目录中
--configsvr 这里我们完全可以像启动普通 mongodb 服务一样启动,不需要添加 —shardsvr 和 configsvr 参数。因为这两个参数的作用就是改变启动端口的,所以我们自行指定了端口就可以。
启动Config2:如上所示
不要关闭 cmd 窗口,最小化即可 。
步骤三:配置config server集群
进入任何一个配置服务器的节点初始化配置服务器的群集
重新打开一个cmd,再进入bin目录下
部署路由服务器 Route Process
可以创建专门的文件夹存放日志
再进入数据库bin目录中启动cmd
mongos : mongos 就是一个路由服务器,它会根据管理员设置的 “ 片键 ” 将数据分摊到自己管理的
mongod 集群,数据和片的对应关系以及相应的配置信息保存在 "config 服务器 " 上。
配置分片信息
bin 目录下使用 MongoDB Shell 登录到 mongos ,添加 Shard 节点
查看分片集
mongodb分片测试
登录路由(4000)端口
指定要分片的数据库
上述指令指定分片集合为c1,分片字段为“id”,分片形式是哈希分片,若改成“1”则为范围分片
如果集合已经包含数据,则必须在分片集合之前创建一个支持分片键的索引,如果集合为空,则
mongodb 将创建索引。
查看分片状态
输入sh.status() 查看分片集群状态
两个shard都有数据分布,说明分片成功。
robo 3T查看分片集
连接两个 shard 端口查看分片情况,若两个shard中的数据不同,则说明分片成功!
shard1--4006端口中的数据存储,查看c1集合中的数据,可见分片键id的分布情况。
shard1--4007端口中的数据存储,查看c1集合中的数据,可见分片键id的分布情况和shard1--4006端口完全一样,说明shard1主从复制成功【副本集群部署成功】。
shard2--4008端口中的数据存储,查看c1集合中的数据,可见分片键id的分布情况和shard1完全不同。说明分片成功!