MongoDB分片集群

20230322058董玲玲

已于 2024-06-19 11:20:29 修改

阅读量1.5k

点赞数 47

文章标签： mongodb 数据库

于 2024-04-23 16:27:29 首次发布

本文链接：https://blog.csdn.net/2301_82068974/article/details/138126878

版权

分片简介

什么是分片

高数据量和高吞吐量的数据库应用会对单机的性能造成较大压力，大的查询会将单机的 CPU 耗尽，大的数据量对单机的存储压力较大，最终会耗尽系统的内存压力转移到磁盘 IO 上。

为了解决这些问题，有两个基本的方法：

垂直扩展：增加更多的 CPU 和存储资源来扩展容量
水平扩展：将数据集分布在多个服务器上

MongoDB 的分片就是水平扩展的体现，使用分片减少了每个分片需要处理的请求数。通过水平扩展，集群可以提高自己的存储容量和吞吐量。

何时分片

通常来说，不宜过早对数据进行分片，这会增加部署的复杂性；也不应该过晚进行分片，因为很难在不停止运行的情况下对超载的系统进行分片。

通常情况下，分片用于以下情况：

增加可用 RAM
增加可用磁盘空间
减少服务器的负载
处理单个 mongod 无法承受的吞吐量

哈希分片

分片过程中可以使用哈希索引作为分片键，其最大的好处是能保证数据在各个节点分布基本均匀。

对于基于哈希的分片，MongoDB 计算一个字段的哈希值，并用这个哈希值来创建数据块。

在使用基于哈希分片的系统中，拥有相近分片键的文档很可能不会存储在同一个数据块中，数据的分离性更好一些。

基于哈希分片可以很好地在集群中分配负载，但是，如果随机访问超出了 RAM 大小的数据时，效率会比较低。

范围分片

对于基于范围的分片，MongoDB 按照分片键的范围把数据分成不同部分。

在使用分片键做范围划分的系统中，拥有相近分片键的文档很可能存储在同一个数据块中，因此也会存储在同一个分片中。

如果这个分片键是一个自增的值时，将会使 MongoDB 难以保持块的均衡，因为 MongoDB 需要不断将最后一个分片的数据块移动到其他分片上。

哈希和范围的结合

哈希分片更适合随机访问，不适合范围查询；范围分片则是适合范围查询，不适合平衡负载。

一个自定义的方案是，对自增字段构建哈希索引（尽可能是仍然保持有序的哈希算法）即可解决。

准备环境

主要文件夹的节点，IP，数据库路径，日志路径

分片	节点	IP：端口	数据库路径	日志路径
1	shard1(主)	localhost:4006	D:\shard1\shard11\data	D:\shard1\shard11\log
1	shard2(副)	localhost:4007	D:\shard1\shard12\data	D:\shard1\shard12\log
2	shard3(主)	localhost:4008	D:\shard2\shard21\data	D:\shard2\shard21\log
2	shard4(副)	localhost:4009	D:\shard2\shard22\data	D:\shard2\shard22\log

主要步骤

每一个分片都应该安装MongoDB实例，和前面的主从复制类似，也需要将bin文件夹复制到每个分片中，并创建data文件夹以及log文件夹存放数据库数据和日志数据。

我们shard11文件夹、shard12文件夹、shard21文件夹和shard22文件夹的里的data文件夹和log文件夹全都是空的。

启动分片服务

首先关闭之前打开的数据库服务。

启动分片服务1

然后进入shard1文件夹要分片的数据库bin目录中，启动cmd。

mongod --shardsvr --replSet shard1 -port 4006 -dbpath D:\shard1\shard11\data -logpath D:\shard1\shard11\log\shard11.log

然后再shard11文件夹里的log文件夹就会自动生成shard11文件

--shardsvr为分片声明

不要关闭此窗口，最小化即可

再次进入shard1文件夹要分片的数据库bin目录中，启动cmd

mongod --shardsvr --replSet shard1 -port 4007 -dbpath D:\shard1\shard12\data -logpath D:\shard1\shard12\log\shard12.log

启动分片服务2

然后进入shard2文件夹要分片的数据库bin目录中，再再启动cmd。

mongod --shardsvr --replSet shard2 -port 4008 -dbpath D:\shard2\shard21\data -logpath D:\shard2\shard21\log\shard21.log

然后进入要分片的数据库bin目录中，再再再启动cmd

mongod --shardsvr --replSet shard2 -port 4009 -dbpath D:\shard2\shard22\data -logpath D:\shard2\shard22\log\shard22.log

进入分片—初始化分片集

从shard1文件夹的bin启动cmd，进入端口：4006。

mongo -port 4006

config={_id:"shard1",members:[

{_id:0,host:"localhost:4006",priority:2},

{_id:1,host:"localhost:4007",priority:1}

]}

rs.initiate(config)

配置启动Config Server

值得注意的是：在MongoDB 3版本后config服务必须配置为凑副本集，所以直接用前面设置好了的副本启动即可

老样子，每个文件夹添加data和log

config实例	端口号	数据库路径	日志路径
config1	4002	D:\config\config1\data	D:\config\config1\log
config2	4003	D:\config\config2\data	D:\config\config2\log

两个实例共两个cmd窗口