学习笔记：分库分表之中间件Mycat实战

最新推荐文章于 2024-08-05 08:48:50 发布

花名提莫

最新推荐文章于 2024-08-05 08:48:50 发布

阅读量5k

点赞数 9

分类专栏：后端中间件分布式文章标签：数据库中间件分布式 mycat

本文链接：https://blog.csdn.net/qq_41770757/article/details/110646899

版权

本文详细介绍了数据库的垂直和水平切分概念，探讨了各自的优缺点，并以Mycat为例，阐述了其作为数据库中间件的核心概念、应用场景以及配置步骤。Mycat支持事务、ACID特性，可替代MySQL，适用于读写分离、分库分表等场景。文章还深入讲解了Mycat的逻辑库、逻辑表、分片规则、全局序列号等关键配置，帮助读者理解Mycat的使用和配置。

摘要由CSDN通过智能技术生成

点关注，不迷路！

本文已整理成文档！

文章目录

需要面试刷题的朋友，也祝愿大家顺利拿到自己想要的offer，这份资料主要包含了Java基础，数据结构，jvm，多线程等等，由于篇幅有限，以下只展示小部分面试题，有需要完整版的朋友可以点一点链接跳转领取，链接：戳这里免费下载，获取码：CSDN

在这里插入图片描述

1.数据切分概念

数据的切分（Sharding）根据其切分规则的类型，可以分为两种切分模式。一种是按照不同的表（或者Schema）来切分到不同的数据库（主机）之上，这种切可以称之为数据的垂直（纵向）切分；另外一则是根据表中的数据的逻辑关系，将同一个表中的数据按照某种条件拆分到多台数据库（主机）上面，这种切分称之为数据的水平（横向）切分。垂直切分的最大特点就是规则简单，实施也更为方便，尤其适合各业务之间的耦合度非常低，相互影响很小，业务逻辑非常清晰的系统。在这种系统中，可以很容易做到将不同业务模块所使用的表分拆到不同的数据库中。根据不同的表来进行拆分，对应用程序的影响也更小，拆分规则也会比较简单清晰。水平切分于垂直切分相比，相对来说稍微复杂一些。因为要将同一个表中的不同数据拆分到不同的数据库中，对于应用程序来说，拆分规则本身就较根据表名来拆分更为复杂，后期的数据维护也会更为复杂一些。

垂直切分

一个数据库由很多表的构成，每个表对应着不同的业务，垂直切分是指按照业务将表进行分类，分布到
不同的数据库上面，这样也就将数据或者说压力分担到不同的库上面，如下图：
在这里插入图片描述
一般来讲业务存在着复杂 join 的场景是难以切分的，往往业务独立的易于切分。如何切分，切分到何种程度是考验技术架构的一个难题。下面来分析下垂直切分的优缺点：

优点：

拆分后业务清晰，拆分规则明确。
系统之间整合或扩展容易。
数据维护简单。

缺点：

部分业务表无法 join，只能通过接口方式解决，提高了系统复杂度。
受每种业务不同的限制存在单库性能瓶颈，不易数据扩展跟性能提高。
事务处理复杂。由于垂直切分是按照业务的分类将表分散到不同的库，所以有些业务表会过于庞大，存在单库读写与存储瓶颈，所以就需要水平拆分来做解决。

水平切分

相对于垂直拆分，水平拆分不是将表做分类，而是按照某个字段的某种规则来分散到多个库之中，每个表中包含一部分数据。简单来说，我们可以将数据的水平切分理解为是按照数据行的切分，就是将表中的某些行切分到一个数据库，而另外的某些行又切分到其他的数据库中，如图：
在这里插入图片描述
拆分数据就需要定义分片规则。关系型数据库是行列的二维模型，拆分的第一原则是找到拆分维度。几种典型的分片规则包括： ? 按照用户 ID 求模，将数据分散到不同的数据库，具有相同数据用户的数据都被分散到一个库中。 ? 按照日期，将不同月甚至日的数据分散到不同的库中。 ? 按照某个特定的字段求摸，或者根据特定范围段分散到不同的库中。
在这里插入图片描述
优点：

拆分规则抽象好，join 操作基本可以数据库做。
不存在单库大数据，高并发的性能瓶颈。
应用端改造较少。
提高了系统的稳定性跟负载能力。

缺点：

拆分规则难以抽象。
分片事务一致性难以解决。
数据多次扩展难度跟维护量极大。
跨库 join 性能较差。

垂直切分和水平切分都有缺点，但共同的缺点有：

引入分布式事务的问题。
跨节点 Join 的问题。
跨节点合并排序分页问题。
多数据源管理问题。

针对数据源管理，目前主要有两种思路：

A. 客户端模式，在每个应用程序模块中配置管理自己需要的一个（或者多个）数据源，直接访问各个数据库，在模块内完成数据的整合；

B. 通过中间代理层来统一管理所有的数据源，后端数据库集群对前端应用程序透明；

集中式代理 proxy mycat

嵌入应用去中心化架构 sharding-jdbc

基于主机进程的去中心化架构 sharding-sidecar service mesh

数据切分原则

第一原则：能不切分尽量不要切分。

第二原则：如果要切分一定要选择合适的切分规则，提前规划好。

第三原则：数据切分尽量通过数据冗余或表分组来降低跨库 Join 的可能。

第四原则：由于数据库中间件对数据 Join 实现的优劣难以把握，而且实现高性能难度极大，业务读取尽量少使用多表 Join。

2.什么是Mycat

定义

一个彻底开源的，面向企业应用开发的大数据库集群
支持事务、ACID、可以替代MySQL的加强版数据库
一个可以视为MySQL集群的企业级数据库，用来替代昂贵的Oracle集群
一个融合内存缓存技术、NoSQL技术、HDFS大数据的新型SQL Server
结合传统数据库和新型分布式数据仓库的新一代企业级数据库产品
一个新颖的数据库中间件产品
官网地址

在这里插入图片描述
跨分片数据合并

应用场景

Mycat 发展到现在，适用的场景已经很丰富，而且不断有新用户给出新的创新性的方案，以下是几个典
型的应用场景：

单纯的读写分离，此时配置最为简单，支持读写分离，主从切换
分表分库，对于超过 1000 万的表进行分片，最大支持 1000 亿的单表分片
多租户应用，每个应用一个库，但应用程序只连接 Mycat，从而不改造程序本身，实现多租户化
报表系统，借助于 Mycat的分表能力，处理大规模报表的统计
替代 Hbase，分析大数据
作为海量数据实时查询的一种简单有效方案，比如 100 亿条频繁查询的记录需要在 3 秒内查询出来结果，除了基于主键的查询，还可能存在范围查询或其他属性查询，此时 Mycat 可能是最简单有效的选择

3.Mycat中的核心概念及配置

核心概念

数据库中间件
Mycat 是数据库中间件，就是介于数据库与应用之间，进行数据处理与交互的中间服务。
逻辑库(schema)
通常对实际应用来说，并不需要知道中间件的存在，业务开发人员只需要知道数据库的概念，所以
数据库中间件可以被看做是一个或多个数据库集群构成的逻辑库
逻辑表（table）
逻辑表，可以是数据切分后，分布在一个或多个分片库中，也可以不做数据切分，不分片，只有一
个表构成。
1. 分片表分片表，是指那些原有的很大数据的表，需要切分到多个数据库的表，这样，每个分
  片都有一部分数据，所有分片构成了完整的数据。例如在 mycat 配置中的 t_node 就属于分
  片表，数据按照规则被分到 dn1,dn2 两个分片节点(dataNode) 上。
2. 非分片表
  一个数据库中并不是所有的表都很大，某些表是可以不用进行切分的，非分片是相对分片表
  来说的，就是那些不需要进行数据切分的表。
  如下配置中 t_node，只存在于分片节点（dataNode）dn1 上。
分片节点(dataNode)
数据切分后，一个大表被分到不同的分片数据库上面，每个表分片所在的数据库就是分片节
（dataNode）
节点主机(dataHost) 数据切分后，每个分片节点（dataNode）不一定都会独占一台机器，同一机
器上面可以有多个分片数据库，这样一个或多个分片节点（dataNode）所在的机器就是节点主机
（dataHost）,为了规避单节点主机并发数限制，尽量将读写压力高的分片节点（dataNode）均
衡的放在不同的节点主机（dataHost）。
分片规则(rule)
一个大表被分成若干个分片表，就需要一定的规则，这样按照某种业务规则把数据分到某个分片
的规则就是分片规则，数据切分选择合适的分片规则非常重要，将极大的避免后续数据处理的难
度。
全局序列号(sequence)
数据切分后，原有的关系数据库中的主键约束在分布式条件下将无法使用，因此需要引入外部机制
保证数据唯一性标识，这种保证全局性的数据唯一标识的机制就是全局序列号（sequence）。

安装与配置

基于源码

MyCAT-Server 源码下载 MyCAT-Server 仓库地址
源码调试与配置 MyCAT 目前主要通过配置文件的方式来定义逻辑库和相关配置： •MYCAT_HOME/conf/schema.xml 中定义逻辑库，表、分片节点等内容.
•MYCAT_HOME/conf/rule.xml 中定义分片规则.
• MYCAT_HOME/conf/server.xml 中定义用户以及系统相关变量，如端口等.
源码运行 MyCAT 入口程序是 org.opencloudb.MycatStartup.java ，需要设置MYCAT_HOME 目
录，为你工程当前所在目录(src/main) ，设置完 MYCAT 主目录后即可正常运行 MyCAT 服务。

在这里插入图片描述

linux安装

# 下载
wget http://dl.mycat.io/1.6.7.3/20190927161129/Mycat-server-1.6.7.3-release-
20190927161129-linux.tar.gz
#解压进入mycat目录
#启动mycat
./bin/mycat start
#停止
./bin/mycat stop
#重启服务
./bin/mycat restart
#查看启动状态
./bin/mycat status

conf 目录下存放配置文件，server.xml 是 Mycat 服务器参数调整和用户授权的配置文件，schema.xml 是逻辑库定义和表以及分片定义的配置文件，rule.xml 是分片规则的配置文件，分片规则的具体一些参数信息单独存放为文件

4. MyCat配置

bin 启动目录
conf 配置目录存放配置文件：
server.xml：是Mycat服务器参数调整和用户授权的配置文件。
schema.xml：是逻辑库定义和表以及分片定义的配置文件。
rule.xml：是分片规则的配置文件，分片规则的具体一些参数信息单独存放为文件，也在这个目录
下，配置文件修改需要重启MyCAT。
log4j.xml：日志存放在logs/log中，每天一个文件，日志的配置是在conf/log4j.xml中，根据
自己的需要可以调整输出级别为debug debug级别下，会输出更多的信
息，方便排查问题。
autopartition-long.txt,partition-hash-int.txt,sequence_conf.properties，
sequence_db_conf.properties 分片相关的id分片规则配置文件
lib MyCAT自身的jar包或依赖的jar包的存放目录。
logs MyCAT日志的存放目录。日志存放在logs/log中，每天一个文件

下面图片描述了Mycat最重要的3大配置文件：
在这里插入图片描述

配置Mycat环境参数

<?xml version="1.0" encoding="UTF-8" standalone="no"?>
<!DOCTYPE mycat:server SYSTEM "server.dtd">
<mycat:server xmlns:mycat="http://org.opencloudb/">