MongoDB的副本集(Replica Set)和分片(Sharding)是两种用于提高数据可用性、冗余性和可扩展性的关键技术。以下是关于这两种技术的综合应用过程的详细细化:
MongoDB副本集(Replica Set)
1. 环境准备
服务器配置:准备多台MongoDB服务器,通常至少3台以形成最小的故障容忍副本集。
-
网络配置:确保所有服务器之间的网络连接稳定可靠。
-
安装MongoDB:在每台服务器上安装相同版本的MongoDB。
2. 配置副本集
初始化配置:
选择一个服务器作为初始主节点(Primary),其他服务器作为从节点(Secondary)。3个服务器启动mongo
当连接到mongodb后,则可以进行初始化副本集如下:
注:副本集的一些shell命令如下图:
配置文件修改:
如:修改每台服务器的MongoDB配置文件(通常是mongod.conf),指定副本集名称、IP地址、端口等。
1.启动访问控制并强制进行身份验证:
开启用户认证前需要创建一个sdrhjk7用户 如:
执行 mongo
然后在配置文件中添加如下配置信息:
2.限制网络访问:
启动服务:
启动三个节点服务:
三个节点启动方式相同
4. 验证管理
接下来需要验证一下复制集的数据同步。
在主节点(127.0.0.1:27017)上的test库collection集合c1中插入数据
复制另一个节点(127.0.0.1:27019)验证是否同步,命令
我们需要运行命令:副本集的从库持久设置
至此MongoDB复制集数据同步就完成了。如果感兴趣,可以继续验证复制集故障迁移(自动容灾),可以将主节点进行模拟宕机(关闭主节点的服务),然后你就会看到另外从节点就变成了主节点。
MongoDB分片(Sharding)
1. 设计分片策略:
MongoDB之所以能够实现自动分片,这是因为其内置了分片策略。MongoDB通过分片键(ShardKey)将集合中的数据划分为多个块(Chunk)(默认大小为64MB,每个块均表示集合中数据的一部分),然后MongoDB根据分片策略将划分的块分发到分片集群中。需要注意,分片键可以是集合文档中的一个或多个字段。
MongoDB的分片策略主要包括范围分片和哈希分片两种,介绍如下
范围分片
MongoDB根据分片键的值范围将数据划分为不同块,每个分片都包含了分片键在一定范围内的数据。这样的话,若有文档写入时,MongoDB会根据该文档的分片键,从而交由指定分片服务器去处理。下面,通过一张图来介绍范围分片策略,具体如图所示。
从图中可以看出,若文档分片键的哈希值为5,则该文档需要交由分片服务器A进行相关处理;若文档分片键的哈希值为12,则该文档需要交由分片服务器B进行相关处理;若文档分片键的哈希值为23,则该文档需要交由分片服务器C进行相关处理。
使用基于哈希分片时,拥有“相近“分片键的文档不会存储在同一个分片服务器中,这样的话,数据的分离性会更好,可以保证分片集群中数据分布均衡。但是,由于数据是通过哈希计算进行随机存放的,因此会降低查询性能。
哈希分片
在MongoDB分片集群中,只有各组件间的协同工作,才可使得分片集群正常运行。在学习分片集群的操作之前,有必要先来学习一下分片集群架构。下面,通过一张图来介绍分片集群架构,具体如图所示。
从图中可以看出,分片集群中主要由三个部分组成,即分片服务器(Shard)、路由服务器(Mongos)以及配置服务器(ConfigServer)组成。其中,分片服务器有三个,即Shard1.Shard2、shard3;路由服务器有两个,即Mongos1和Mongos2;配置服务器有三个,即主、副、副。
主要有如下所述三个主要组件:
Shard:
用于存储实际的数据块,实际生产环境中一个shard server角色可由几台机器组个一个replica set承担,防止主机单点故障Config Server:mongod实例,存储了整个ClusterMetadata,其中包括chunk信息Query Routers:
前端路由,客户端由此接入,且让整个集群看上去像单一数据库,前端应用可以透明使用。
2. 配置分片
启动配置服务器:
配置服务器用于存储集群的元数据和配置信息。
即Config Server。在生产环境中,通常需要多个配置服务器,因为它存储了分片集群的元数据,并且这些数据是不允许丢失的。因此,需要配置多个配置服务器以防止数据丢失,尽管其中一台分片服务器宕机,我们还有其它配置服务器,从而保证MongoDB分片集群依然能够正常工作。从MongoDB3.4版本开始,配置服务器必须部署副本集,因此我们需要配置三个配置服务器组成的副本集。
配置服务器存储着分片集群的持久化元数据,而路由服务器存储着分片集群的非持久化元数据,这些数据均为内存缓存的数 据。当路由服务器初次启动或关闭重启时,就会从配置服务器中加载分片集群的元数据。若是配置服务器的信息发生变化,则会通知所有路由服务器更新自己的状态,这样路由服务器就能继续准确的协调客户端与分片集群的交互工作。
启动分片服务器:
路由服务器是客户端连接的分片集群的入口点。
首先关闭之前打开的数据库服务,然后进行要分片的数据库bin目录中,启动cmd
配置启动 Config Server
值得注意的是:在MongoDB 3版本后config服务必须配置为从副本集,所以直接用前面设置好了的副本启动即可
老样子,每个文件夹添加data和log
三个实例共三个cmd窗口
启动Config 1:
进入要分片的数据库bin目录中
-.configsvr 这里我们完全可以像启动普通mongodb服务一样启动,不需要添加-shardsvr和configsvr参数。因为这两个参数的作用就是改变启动端口的,所以我们自行指定了端口就可以。
三个实例共三个cmd窗口【一次性启动服务,不要关闭cmd窗口,最小化即可】
启动Config 2:
启动Config 3:
进入任何一个配置服务器的节点初始化配置服务器的群集
重新打开一个cmd,再bin目录下
配置设置
配置分片sharding,添加分片索引
bin目录下使用Mongdb Shell登入到mongos,添加Shard节点
在进入要分片的数据库bin目录中启动cmd
mongos: mongos就是一个路由服务器,它会根据管理员设置的“片键”将数据分摊到自己管理的mongod集群,数据和片的对应关系以及相应的配置信息保存在"config服务器上。
配置分片sahreding,添加分片索引
bin目录下使用Mongdb Shell登入到mongos,添加Shard节点
查看分片集
mongodb分片测试
登入4000的端口
指定要分片的数据库
指定数据库里需要的集合和分键,片键根据实际情况选择
如果集合已经包含数据,则必须在分片集合之前创建一个支持分片键的索引,如果集合为空,则mongodb将创建索引
向test库里的c2集合插入10000条数据
这里可能是数据量太少了,出来的结果并不是我想象的结果,根据官方说明,单调变化的键上进行分片,考虑使用哈希分片
robo 3T查看分片集
robo 3T链接4000端口进行查看
也可以连接两个shard端口查看分片情况
最后
重新打开mongodb服务,即可像原来一样使用,但是数据存储方式和原来已经不一样了,变成了分布式的分片存储。
tips:
电脑版本比较高,所以的cmd需要使用管理员身份运行
启动服务均为一次性服务,关闭cmd即为关闭服务,所以在未完成前,请勿关闭
实例均未添加至系统环境变量,请在bin目录下启动
虽然窗口很多,操作不太友好,但是在win系统下,还是多有耐心一点,linux会简单一些,详情看书上。
综合应用
- 结合使用:在一个MongoDB集群中,可以同时使用副本集和分片技术。例如,每个分片可以是一个副本集,以提高数据的可靠性和可用性。
- 扩展性:随着数据量的增长,可以通过添加更多的分片服务器来扩展存储和计算能力。
- 高可用性:通过副本集技术,即使在某个分片或服务器出现故障时,也能保证数据的完整性和服务的连续性。
- 性能优化:通过合理的分片策略和优化,可以提高查询性能和写入性能。
以上是MongoDB副本集和分片技术的综合应用过程的详细细化。在实际应用中,需要根据具体的业务需求和数据特点进行配置和优化。