一、分片集群简介
在之前有说过关于MongoDB的复制集,复制集主要用来实现自动故障转移从而达到高可用的目的,然而,随着业务规模的增长和时间的推移,业务数据量会越来越大,当前业务数据可能只有几百GB不到,一台DB服务器足以搞定所有的工作,而一旦业务数据量扩充大几个TB几百个TB时,就会产生一台服务器无法存储的情况,此时,需要将数据按照一定的规则分配到不同的服务器进行存储、查询等,即为分片集群。分片集群要做到的事情就是数据分布式存储。
集群组建示意图:
MongoDB分片群集主要有如下三个组件:
- Shard:分片服务器,用于存储实际的数据块,实际生产环境中一个shard server 角色可以由几台服务器组成一个Peplica Set 承担,防止主机单点故障。
- Config Server:配置服务器,主要是记录shard的配置信息(元信息metadata),如数据存储目录,日志目录,端口号,是否开启了journal等信息,其中包括chunk信息。为了保证config服务器的可用性,也做了复制集处理,注意,一旦配置服务器无法使用,则整个集群就不能使用了,一般是独立的三台服务器实现冗余备份,这三台可能每一台是独立的复制集架构。
- Routers:前端路由,负责数据的分片写入。客户端由此接入,且让整个群集看上去像单一数据库,前端应用可以透明使用。应用程序通过驱动程序直接连接router,router启动时从配置服务器复制集中读取shared信息,然后将数据实际写入或读取(路由)到具体的shard中。
二、集群部署
环境准备:
mongodb4.0.2压缩包官网地址 https://fastdl.mongodb.org/linux/mongodb-linux-x86_64-4.0.2.tgz
mongo1:192.168.247.141 shard1:27001 shard2:27002 shard3:27003 configs:27018 mongos:27017
mongo2:192.168.