1.介绍
1.分片概述
MongoDB 有三种集群部署模式,分别为主从复制(Master-Slaver)、副本集(Replica Set)和分片(Sharding)模式。分片(Sharding)技术是开发人员用来提高数据存储和数据读写吞吐量常用的技术之一。简单的来说,分片主要是将数据进行划分后,将它们分别存放于不同机器上的过程。通过使用分片可以实现降低单个机器的压力和处理更大的数据负载功能。分片与副本集主要区别在于,分片是每个节点存储数据的不同片段,而副本集是每个节点存储数据的相同副本。
所有数据库都可以进行手动分片(Manual Sharding),因此,分片并不是MongoDB特有的。不同类型的数据均可以通过人为操作被分配到不同的数据库服务器上,然而,人工分片是需要编写相关代码来实现分片功能,并且还不容易维护(如集群中节点发生变动的情况)。MongoDB数据库可以实现自动分片,它内置了多种分片逻辑,使得MongoDB可以自动处理分片上数据的分布,也可以很容易的管理分片集群。
由于数据量太大,导致本地磁盘不足以存储的情况;为了提高数据库性能,从而将海量数据存储在内存中,导致单个MongoDB数据库内存不足的情况;若是出现数据请求量太大,导致单MongoDB机器不能满足读写数据的性能情况。若是出现这三种情况,我们就可以使用MongoDB的分片技术来解决。
2.分片策略
MongoDB之所以能够实现自动分片,这是因为其内置了分片策略。MongoDB通过分片键(ShardKey)将集合中的数据划分为多个块(Chunk)(默认大小为64MB,每个块均表示集合中数据的一部分),然后MongoDB根据分片策略将划分的块分发到分片集群中。需要注意,分片键可以是集合文档中的一个或多个字段。
MongoDB的分片策略主要包括范围分片和哈希分片两种,介绍如下
3.范围分片
MongoDB根据分片键的值范围将数据划分为不同块,每个分片都包含了分片键在一定范围内的数据。这样的话,若有文档写入时,MongoDB会根据该文档的分片键,从而交由指定分片服务器去处理。
4.哈希分片(Hash Sharding)
哈希分片类似于范围分片,两者的区别在于范围分片是MongoDB根据分片键的值直接进行范围划分,而哈希分片则先将分片键的值进行哈希计算后,然后对这些哈希值进行范围划分,从而使得每个分片都包含了哈希值在一定范围内的数据;范围分片可以支持复合分片键,而哈希分片只支持单个字段作为分片键。哈希值的随机性,使得数据随机分布在分片集群中不同分片服务器上。
5.分片服务器
即MongoDB实例(即mongod,用Shard表示),分片服务器是实际存储数据的组件,持有完整数据集中的一部分,每个分片服务器都可以是一个MongoDB实例,也可是一组MongoDB实例组成的集群(副本集)。从MongoDB 3.6开始,必须将分片部署为副本集,这样具有更好的容错性。
6.路由服务器
即mongos,路由服务器主要提供客户端应用程序与分片集群交互的接口,所有请求都需要通过路由服务器进行协调工作。路由服务器实际上就是一个消息分发请求中心,它负责把客户端应用程序对应的数据请求转发到对应的分片服务器上。应用程序将查询、存储、更新等请求原封不动地发送给路由服务器。路由服务器询问配置服务器操作分片服务器需要获取哪些元数据,然后连接相应的分片服务器进行相关操作,最后将各个分片服务器的响应进行合并,返回给客户端应用程序。
生产环境中,一个分片集群通常会有多个路由服务器,一方面可以解决多个客户端同时请求,从而达到负载均衡的效果;另一方面可以解决当路由服务器宕机时导致整个分片集群无法使用的问题。
7.配置服务器
即Config Server。在生产环境中,通常需要多个配置服务器,因为它存储了分片集群的元数据,并且这些数据是不允许丢失的。因此,需要配置多个配置服务器以防止数据丢失,尽管其中一台分片服务器宕机,我们还有其它配置服务器,从而保证MongoDB分片集群依然能够正常工作。从MongoDB 3.4版本开始,配置服务器必须部署副本集,因此我们需要配置三个配置服务器组成的副本集。
配置服务器存储着分片集群的持久化元数据,而路由服务器存储着分片集群的非持久化元数据,这些数据均为内存缓存的数 据。当路由服务器初次启动或关闭重启时,就会从配置服务器中加载分片集群的元数据。若是配置服务器的信息发生变化,则会通知所有路由服务器更新自己的状态,这样路由服务器就能继续准确的协调客户端与分片集群的交互工作。
2.部署分片集群
1.环境配置
每一个分片都应该安装MongoDB实例,和前面的主从复制类似,也需要将bin文件复制到每个分片中,并且创建shard11tada文件存放data以及log文件存放数据库数据和日志数据
2.启动分片服务1
然后进入要分片的数据库bin目录中,启动cmd
mongod --shardsvr --replSet shard1 -port 4006 -dbpath D:\shard1\shard11\data -logpath D:\shard1\shard11\log\shard11.log
--shardsvr为分片声明
不要关闭此窗口,最小化即可
再次进入要分片的数据库bin目录中,启动cmd
mongod --shardsvr --replSet shard1 -port 4007 -dbpath D:\shard1\shard12\data -logpath D:\shard1\shard12\log\shar12.log
3.启动分片服务2
进入要分片的数据库bin目录中,再再次启动cmd
mongod --shardsvr --replSet -shard2 -port 4008 -dbpath D:\shard2\shard21\data -logpath D:\shard2\shard21\log\shard21.log
4.进入要分片的数据库bin目录中,再再再次启动cmd
mongod --shardsvr --replSet -shard2 -port 4009 -dbpath D:\shard2\shard22\data -logpath D:\shard2\shard22\log\shard22.log
5.进入分片一 初始化分片集
config={_id:"shard2",members:[
... {_id:0,host:"localhost:4006",priority:2},
... {_id:0,host:"localhost:4007",priority:1}
... ]}
6.进入分片二 初始化分片集
config={_id:"shard2",members:[
... {_id:0,host:"localhost:4008",priority:2},
... {_id:0,host:"localhost:4009",priority:1}
... ]}
rs.initiate(config)
2.配置启动 Config Server
值得注意的是:在MongoDB 3版本后config服务必须配置为从副本集,所以直接用前面设置好了的副本启动即可老样子,每个文件夹添加data和log
1.启动Config1:
进入要分片的数据库bin目录中
mongod --configsvr --replSet confset --port 4002 -dbpath D:\config\config1\data -logpath D:\config\config1\log\conf1.log
2.启动Config2:
mongod --configsvr --replSet confset --port 4003 -dbpath D:\config\config2\data -logpath D:\config\config2\log\conf2.log
3.进入任何一个配置服务器的节点初始化配置服务器的群集
重新打开一个cmd,再bin目录下
config={_id:"confset",configsvr:true,members:[
... {_id:0,host:"localhost:4002"},
... {_id:0,host:"localhost:4003"}
... ]}
3.配置路由服务器 Route Process
可以创建专门的文件夹存放日志
在进入要分片的数据库bin目录中启动cmd
mongos --configdb confset/localhost:4002,localhost:4003 -logpath D:\mongos\log\mongos.log -port 4000
mongos: mongos就是一个路由服务器,它会根据管理员设置的“片键”将数据分摊到自己管理的mongod集群,数据和片的对应关系以及相应的配置信息保存在"config服务器"上。
4.配置分片sharding,添加分片索引
bin目录下使用MongoDB Shell登录到mongos,添加Shard节点
sh.addShard("shard1/localhost:4006,localhost:4007")
sh.addShard("shard2/localhost:4008,localhost:4009")
5.查看分片集
db.getSiblingDB("config").shards.find()
6.mongodb分片测试
指定要分片的数据库
sh.enableSharding("test")
指定数据库里需要分片的集合和片键,片键根据实际情况选择
sh.shardCollection("test.c2",{"id":1})//1表示范围分片,“hashed”表示哈希分片
如果集合已经包含数据,则必须在分片集合之前创建一个支持分片键的索引,如果集合为空,则mongodb将创建索引。
向test库里的c2集合插入10000条数据
for (var i = 1; i<=10000;i++) db.c2.save({id:i,"test1":"testval"+i})
#查看c2信息sh.status()
这里可能是数据量太少了,出来的结果并不是我想像的那样,根据官方说明,单调变化的键上进行分片,考虑使用哈希分片。
3.robo 3T查看分片集
robo 3T链接4000端口进行查看
也可以连接两个shard端口查看分片情况
最后重新打开mongodb服务,即可像原来一样使用,但是数据存储方式和原来已经不一样了,变成了分布式的分片存储。