Mycat和分库分表

最新推荐文章于 2024-09-05 14:31:09 发布

//Nevada

最新推荐文章于 2024-09-05 14:31:09 发布

阅读量224

点赞数

分类专栏： MySQL 架构文章标签： mycat

本文链接：https://blog.csdn.net/BORRISEE6/article/details/103036865

版权

MySQL 同时被 2 个专栏收录

14 篇文章 0 订阅

订阅专栏

架构

4 篇文章 0 订阅

订阅专栏

mycat是一种非常流行的分布式数据库中间插件，mycat的作用为满足数据库的大量存储，提高了查询性能，从架构的角度来理解就是前端用户可以把mycat看作是一个数据库的代理，核心功能是分库分表，即将一个大表水平分割为n个小表。

千亿以下的数据规模仍然是数据库领域的专长，而 Hadoop 等这种系统，更适合的是千亿以上的规模。所以，Mycat 适合 1000 亿条以下的单表规模。

mycat的原理

拦截了用户发送过来的sql语句，首先对sql语句做一些特定的分析，如分片分析，路由分析，读写分离分析，缓存分析，然后将此sql发送到后端真实的数据库，结果并返回给用户。如下图：

原理图

Orders 表被分为三个分片 datanode（简称 dn)，这三个分片是分布在两台 MySQL Server 上 (DataHost)，即 datanode=database@datahost 方式，因此你可以用一台到 N 台服务器来分片，分片规则为（sharding rule)典型的字符串枚举分片规则，一个规则的定义是分片字段（sharding column)+分片函数(rule function)，这里的分片字段为 prov 而分片函数为字符串枚举方式。

以 select * from Orders where prov=?语句为例，查到 prov=wuhan，按照分片函数，wuhan 返回 dn1，于是 SQL 就发给了 MySQL1，去取 DB1 上的查询。
如果上述 SQL 改为 select * from Orders where prov in (‘wuhan’,‘beijing’)，那么，SQL 就会发给 MySQL1 与MySQL2 去执行，然后结果集合并后输出给用户。

Mycat中的概念

数据库中间件

Mycat 是数据库中间件，就是介于数据库与应用之间，进行数据处理与交互的中间服务。对数据进行分片处理之后，从原有的一个库，被切分为多个分片数据库，所有的分片数据库集群构成了整个完整的数据库存储。

数据库中间件

逻辑库(schema)

业务开发人员通常在实际应用中并不需要知道中间件的存在，只需要关注数据库，所以数据库中间件可以被当作一个或多个数据库集群构成的逻辑库。

逻辑库

逻辑表

在分布式数据库中，读写数据的表就是逻辑表。逻辑表可以分布在一个或多个分片库中，也可以不分片。

分片表

分片表是将数据量很大的表切分到多个数据库实例中，所有分片组合起来构成一张完整的表。

<table name="t_node" primaryKey="vid" autoIncrement="true" dataNode="dn1,dn2" rule="rule1" />

在 mycat 配置中的 t_node 就属于分片表，数据按照规则被分到 dn1,dn2 两个分片节点(dataNode)上。

非分片表

一个数据库中并不是所有的表都很大，某些表是可以不用进行切分的，非分片是相对分片表来说的，就是那些不需要进行数据切分的表。

<table name="t_node" primaryKey="vid" autoIncrement="true" dataNode="dn1" />

配置中 t_node，只存在于分片节点（dataNode）dn1 上。

ER表

关系型数据库是基于实体关系模型（Entity-Relationship Model)之上，通过其描述了真实世界中事物与关系，Mycat 中的 ER 表即是来源于此。根据这一思路，提出了基于 E-R 关系的数据分片策略，子表的记录与所关联的父表记录存放在同一个数据分片上，即子表依赖于父表，通过表分组（Table Group）保证数据 Join 不会跨库操作。

表分组（Table Group）是解决跨分片数据 join 的一种很好的思路，也是数据切分规划的重要一条规则。

全局表

在一个真实的业务场景中往往存在大量类似的字典表，这些字典表中的数据变动不频繁，而且数据量也不大，很少有超过数十万条的记录。当业务表因为规模进行分片后，业务表与这些附属的字典表之间的关联查询就成了比较棘手的问题，Mycat中通过数据冗余来解决这类表的关联查询，所有分片都复制了一份数据，这些冗余数据的表定义为全局表。

分片节点(dataNode)

将数据切分后，一个大表被分到不同的数据库上，每个表分片所在的数据库就是分片节点。

节点主机(dataHost)

将数据切分后，每个分片节点不一定会独占一台机器，同一台机器上可以有多个分片数据库，这样一个或多个分片节点所在的机器就是节点主机。为了规避单节点主机并发数量的限制，尽量将读写压力高的分片节点均匀地放在不同的节点主机上。

分片规则(rule)

前面讲了数据切分，一个大表被分成若干个分片表，就需要一定的规则，这样按照某种业务规则把数据分到某个分片的规则就是分片规则，数据切分选择合适的分片规则非常重要，将极大的避免后续数据处理的难度

全局序列号(sequence)

数据切分后，原有的关系数据库中的主键约束在分布式条件下将无法使用，因此需要引入外部机制保证数据唯一性标识，这种保证全局性的数据唯一标识的机制就是全局序列号（sequence）。

mycat配置

mycat主要的配置文件是rule.xml, schema.xml和server.xml。

####rule.xml
rule.xml 里面就定义了我们对表进行拆分所涉及到的规则定义。我们可以灵活的对表使用不同的分片算法，或者对表使用相同的算法但具体的参数不同。这个文件里面主要有 tableRule 和 function 这两个标签。在具体使用过程中可以按照需求添加 tableRule 和 function。

tableRule 标签
这个标签定义表规则。定义的表规则，在 schema.xml：

<tableRule name="rule1"> 
<rule> 
<columns>id</columns> 
<algorithm>func1</algorithm> 
</rule> 
</tableRule>

name 属性指定唯一的名字，用于标识不同的表规则。
内嵌的 rule 标签则指定对物理表中的哪一列进行拆分和使用什么路由算法。
columns 内指定要拆分的列名字。
algorithm 使用 function 标签中的 name 属性。连接表规则和具体路由算法。当然，多个表规则可以连接到同一个路由算法上。table 标签内使用。让逻辑表使用这个规则进行分片。
function标签

<function name="hash-int" 
class="io.mycat.route.function.PartitionByFileMap"> 
<property name="mapFile">partition-hash-int.txt</property> 
</function>

name 指定算法的名字。
class 制定路由算法具体的类名字。
property 为具体算法需要用到的一些属性。
路由算法的配置可以查看算法章节。

server.xml

配置登录mycat的账号密码

schema.xml

Schema.xml 作为 MyCat 中重要的配置文件之一，管理着 MyCat 的逻辑库、表、分片规则、DataNode 以及 DataSource。弄懂这些配置，是正确使用 MyCat 的前提。

dataHost 标签
作为 Schema.xml 中最后的一个标签，该标签在 mycat 逻辑库中也是作为最底层的标签存在，直接定义了具体的数据库实例、读写分离配置和心跳语句。

<dataHost name="localhost1" maxCon="1000" minCon="10" balance="0" 
writeType="0" dbType="mysql" dbDriver="native"> 
<heartbeat>select user()</heartbeat> 
<!-- can have multi write hosts --> 
<writeHost host="hostM1" url="localhost:3306" user="root" password="123456"> 
<!-- can have multi read hosts --> 
<!-- <readHost host="hostS1" url="localhost:3306" user="root" password="123456" 
/> --> 
</writeHost> 
<!-- <writeHost host="hostM2" url="localhost:3316" user="root" password="123456"/> --> 
</dataHost>

name 属性
唯一标识 dataHost 标签，供上层的标签使用。
maxCon 属性
指定每个读写实例连接池的最大连接。也就是说，标签内嵌套的 writeHost、readHost 标签都会使用这个属性的值来实例化出连接池的最大连接数。
minCon 属性
指定每个读写实例连接池的最小连接，初始化连接池的大小。
balance 属性
负载均衡类型，目前的取值有 3 种：

balance=“0”, 不开启读写分离机制，所有读操作都发送到当前可用的 writeHost 上。
balance=“1”，全部的 readHost 与 stand by writeHost 参与 select 语句的负载均衡，简单的说，当双
主双从模式(M1->S1，M2->S2，并且 M1 与 M2 互为主备)，正常情况下，M2,S1,S2 都参与 select 语句的负载
均衡。
balance=“2”，所有读操作都随机的在 writeHost、readhost 上分发。
balance=“3”，所有读请求随机的分发到 wiriterHost 对应的 readhost 执行，writerHost 不负担读压力，
注意 balance=3 只在 1.4 及其以后版本有，1.3 没有。
writeType 属性
负载均衡类型，目前的取值有 3 种：
writeType=“0”, 所有写操作发送到配置的第一个 writeHost，第一个挂了切到还生存的第二个 writeHost，
重新启动后已切换后的为准，切换记录在配置文件中:dnindex.properties .
writeType=“1”，所有写操作都随机的发送到配置的 writeHost，1.5 以后废弃不推荐。switchType 属
性

dbType 属性
指定后端连接的数据库类型，目前支持二进制的 mysql 协议，还有其他使用 JDBC 连接的数据库。例如： mongodb、oracle、spark 等。
dbDriver 属性
指定连接后端数据库使用的 Driver，目前可选的值有 native 和 JDBC。使用 native 的话，因为这个值执行的是二进制的 mysql 协议，所以可以使用 mysql 和 maridb。其他类型的数据库则需要使用 JDBC 驱动来支持。从 1.6 版本开始支持 postgresql 的 native 原始协议。如果使用 JDBC 的话需要将符合 JDBC 4 标准的驱动 JAR 包放到 MYCAT\lib 目录下，并检查驱动 JAR 包中包括如下目录结构的文件：META-INF\services\java.sql.Driver。在这个文件内写上具体的 Driver 类名，例如：
com.mysql.jdbc.Driver。
switchType 属性
1 表示不自动切换
1 默认值，自动切换
2 基于 MySQL 主从同步的状态决定是否切换心跳语句为
show slave status
3 基于 MySQL galary cluster 的切换机制（适合集群）（1.4.1）
心跳语句为 show status like ‘wsrep%’
heartbeat 标签
这个标签内指明用于和后端数据库进行心跳检查的语句。例如,MYSQL 可以使用 select user()，Oracle 可以使用 select 1 from dual 等。
writeHost 标签、readHost 标签
这两个标签都指定后端数据库的相关配置给 mycat，用于实例化后端连接池。唯一不同的是，writeHost 指定写实例、readHost 指定读实例，组着这些读写实例来满足系统的要求。
在一个 dataHost 内可以定义多个 writeHost 和 readHost。但是，如果 writeHost 指定的后端数据库宕机，那么这个 writeHost 绑定的所有 readHost 都将不可用。另一方面，由于这个 writeHost 宕机系统会自动的检测到，并切换到备用的 writeHost 上去。