一、环境搭建
Mycat 是 采用java语言开发的开源的数据库中间件,支持Windows和Linux运行环境,下面介绍 MyCat的Linux中的环境搭建 。
A. MySQL
B. JDK
C. MyCat
1.安装配置MySQL
1)安装MySQL
A). 卸载 centos 中预安装的 mysql
rpm -qa | grep -i mysql
rpm -e mysql-libs-5.1.71-1.el6.x86_64 --nodeps
B). 上传 mysql 的安装包
alt + p -------> put E:/test/MySQL-5.6.22-1.el6.i686.rpm-bundle.tar
C). 解压 mysql 的安装包
mkdir mysql
tar -xvf MySQL-5.6.22-1.el6.i686.rpm-bundle.tar -C /root/mysql
D). 安装依赖包
yum -y install libaio.so.1 libgcc_s.so.1 libstdc++.so.6 libncurses.so.5 -- setopt=protected_multilib=false
yum update libstdc++-4.4.7-4.el6.x86_64
E). 安装 mysql-client
rpm -ivh MySQL-client-5.6.22-1.el6.i686.rpm
F). 安装 mysql-server
rpm -ivh MySQL-server-5.6.22-1.el6.i686.rpm
2)启动停止MySQL
service mysql start
service mysql stop
service mysql status
service mysql restart
3)登录MySQL
mysql 安装完成之后, 会自动生成一个随机的密码, 并且保存在一个密码文件中 :
/root/.mysql_secret
mysql -u root -p
登录之后, 修改密码 :
set password = password('itcast');
授权远程访问 :
grant all privileges on *.* to 'root' @'%' identified by 'itcast';
flush privileges;
授权远程访问之后 , 就可以通过sqlYog来连接Linux上的MySQL , 但是记得关闭Linux上的防火墙(或者配置防火墙):
2.安装JDK1.8
A. 上传JDK的安装包到Linux的root目录下
alt + p -----------> put D:/jdk-8u181-linux-x64.tar.gz
B. 解压压缩包 , 到 /usr/share 目录下
tar -zxvf jdk-8u181-linux-x64.tar.gz -C /usr/share/
C. 配置PATH环境变量 , 在该配置文件(/etc/profile)的最后加入如下配置
export JAVA_HOME=/usr/share/jdk1.8.0_181
export PATH=
P
A
T
H
:
PATH:
PATH:JAVA_HOME/bin
3.安装MyCat
上传MyCat的压缩包 alt + p --------> put D:/Mycat-server-1.6.7.3- release-20190927161129-linux.tar.gz
解压MyCat的压缩包 tar -zxvf Mycat-server-1.6.7.3-release-20190927161129- linux.tar.gz -C /usr/local
MyCat的目录结构介绍
二、MyCat核心概念
1.分片
简单来说,就是指通过某种特定的条件,将我们存放在同一个数据库中的数据分散存放到多个 数据库(主机) 上面,以达到分散单台设备负载的效果。 数据的 切分(Sharding) 根据其切分规则的类型,可以分为两种切分模式。
一种是按照不同的表(或者Schema)来切分到不同的数据库(主机)之上,这种切分可以称之为数据的垂直(纵向)切分。
另外一种则是根据表中的数据的逻辑关系,将同一个表中的数据按照某种条件拆分到多台数据库(主机)上面,这种切分称之为数据的水平(横向)切分。
MyCat 分片策略 :
虚线以上是逻辑结构图, 虚线以下是物理结构图 ;
2.逻辑库(schema)
MyCat是一个数据库中间件,通常对实际应用来说,并不需要知道中间件的存在,业务开发人员只需要知道数据库的概念,所以数据库中间件可以被看做是一个或多个数据库集群构成的逻辑库。
3.逻辑表(table)
既然有逻辑库,那么就会有逻辑表,分布式数据库中,对应用来说,读写数据的表就是逻辑表。逻辑表,可以是数据切分后,分布在一个或多个分片库中,也可以不做数据切分,不分片,只有一个表构成。
分片表
是指那些原有的很大数据的表,需要切分到多个数据库的表,这样,每个分片都有一部分数据,所有分片构成了完整的数据。 总而言之就是需要进行分片的表。如 :tb_order 表是一个分片表, 数据按照规则被切分到dn1、dn2两个节点。
非分片表
一个数据库中并不是所有的表都很大,某些表是可以不用进行切分的,非分片是相对分片表来说的,就是那些不需要进行数据切分的表。如: tb_city是非分片表 , 数据只存于其中的一个节点 dn1 上。
ER表
关系型数据库是基于 实体关系模型(Entity Relationship Model) 的, MyCat中的ER表便来源于此。 MyCat提出了基于ER关系的数据分片策略 , 字表的记录与其所关联的父表的记录存放在同一个数据分片中, 通过 表分组(Table Group) 保证数据关联查询不会跨库操作。
全局表
在一个大型的项目中,会存在一部分 字典表(码表) , 在其中存储的是项目中的一些基础的数据 , 而这些基础的数据 , 数据量都不大 , 在各个业务表中可能都存在关联 。当业务表由于数据量大而分片后 , 业务表与附属的数据字典表之间的关联查询就变成了比较棘手的问题 , 在MyCat中可以通过数据冗余来解决这类表的关联查询 , 即所有分片都复制这一份数据(数据字典表),因此可以把这些冗余数据的表定义为全局表。
4.分片节点(dataNode)
数据切分后,一个大表被分到不同的分片数据库上面,每个表分片所在的数据库就是 分片节点(dataNode)。
5.节点主机(dataHost)
数据切分后,每个 分片节点(dataNode) 不一定都会独占一台机器,同一机器上面可以有多个分片数据库,这样一个或多个 分片节点(dataNode) 所在的机器就是 节点主机(dataHost),为了规避单节点主机并发数限制,尽量将读写压力高的 分片节点(dataNode) 均衡的放在不同的 节点主机(dataHost)。
6.分片规则(rule)
前面讲了数据切分,一个大表被分成若干个分片表,就需要一定的规则,这样按照某种业务规则把数据分到某个分片的规则就是分片规则,数据切分选择合适的分片规则非常重要,将极大的避免后续数据处理的难度。
三、分片配置测试
1.需求
由于 TB_TEST 表中数据量很大, 现在需要对 TB_TEST 表进行数据分片, 分为三个数据节点 , 每一个节点主机位于不同的服务器上, 具体的结构 ,参考下图 :
2.环境准备
准备三台虚拟机 , 且安装好 MySQL , 并配置好 :
IP 地址列表 :
192.168.192.157
192.168.192.158
192.168.192.159
3.配置 schema.xml
schema.xml 作为MyCat中重要的配置文件之一,管理着MyCat的逻辑库、逻辑表以及对应的分片规则、DataNode以及DataSource。弄懂这些配置,是正确使用MyCat的前提。这里就一层层对该文件进行解析。
在服务器上创建3个数据库,命名为 db1
修改 schema.xml 如下:
<?xml version="1.0"?>
<!DOCTYPE mycat:schema SYSTEM "schema.dtd">
<mycat:schema xmlns:mycat="http://io.mycat/">
<!-- 逻辑库配置 -->
<schema name="ITCAST" checkSQLschema="false" sqlMaxLimit="100">
<!-- 逻辑表配置 -->
<table name="TB_TEST" dataNode="dn1,dn2,dn3" rule="auto-sharding-long" />
</schema>
<!-- 数据节点配置 -->
<dataNode name="dn1" dataHost="host1" database="db1" />
<dataNode name="dn2" dataHost="host2" database="db1" />
<dataNode name="dn3" dataHost="host3" database="db1" />
<!-- 节点主机配置 -->
<dataHost name="host1" maxCon="1000" minCon="10" balance="0" writeType="0" dbType="mysql" dbDriver="native" switchType="1" slaveThreshold="100">
<heartbeat>select user()</heartbeat>
<writeHost host="hostM1" url="192.168.192.157:3306" user="root" password="itcast"></writeHost>
</dataHost>
<dataHost name="host2" maxCon="1000" minCon="10" balance="0" writeType="0" dbType="mysql" dbDriver="native" switchType="1" slaveThreshold="100">
<heartbeat>select user()</heartbeat>
<writeHost host="hostM1" url="192.168.192.158:3306" user="root" password="itcast"></writeHost>
</dataHost>
<dataHost name="host3" maxCon="1000" minCon="10" balance="0" writeType="0" dbType="mysql" dbDriver="native" switchType="1" slaveThreshold="100">
<heartbeat>select user()</heartbeat>
<writeHost host="hostM1" url="192.168.192.159:3306" user="root" password="itcast"></writeHost>
</dataHost>
</mycat:schema>
4.配置 server.xml
server.xml 几乎保存了所有mycat需要的系统配置信息。最常用的是在此配置用户名、密码及权限。在system中添加UTF-8字符集设置,否则存储中文会出现问号
utf8
修改user的设置 , 我们这里为 ITCAST 设置了两个用户 :
5.启动MyCat
启动:
bin/mycat start
bin/mycat stop
bin/mycat status
查看MyCat:
连接端口号 8066
通过命令行
mysql -h 127.0.0.1 -P 8066 -u root -p
通过sqlyog连接
6.MyCat分片测试
进入mycat ,执行下列语句创建一个表
CREATE TABLE TB_TEST (
id BIGINT(20) NOT NULL,
title VARCHAR(100) NOT NULL ,
PRIMARY KEY (id)
) ENGINE=INNODB DEFAULT CHARSET=utf8 ;
我们再查看MySQL的3个库,发现表都自动创建好啦。好神奇。
接下来是插入表数据,注意,在写 INSERT 语句时一定要写把字段列表写出来,否则会出现下列错误提示:
错误代码: 1064
partition table, insert must provide ColumnList
我们试着插入一些数据:
INSERT INTO TB_TEST(ID,TITLE) VALUES(1,‘goods1’);
INSERT INTO TB_TEST(ID,TITLE) VALUES(2,‘goods2’);
INSERT INTO TB_TEST(ID,TITLE) VALUES(3,‘goods3’);
我们会发现这些数据被写入到第一个节点中了,那什么时候数据会写到第二个节点中呢?
我们插入下面的数据就可以插入第二个节点了
INSERT INTO TB_TEST(ID,TITLE) VALUES(5000001,‘goods5000001’);
因为我们采用的分片规则是每节点存储500万条数据,所以当ID大于5000000则会存储到第二个节点上。
目前只设置了两个节点,如果数据大于1000万条,会怎么样呢?执行下列语句测试一下
INSERT INTO TB_TEST(ID,TITLE) VALUES(10000001,‘goods10000001’);
四、MyCat原理介绍
MyCat原理中最重要的一个动词就是 “拦截”, 它拦截了用户发送过来的SQL语句, 首先对SQL语句做一些特定的分析,如 分片分析、路由分析、读写分离分析、缓存分析等,然后将此SQL语句发往后端的真实数据库,并将返回的结果做适当处理,最终再返回给用户
分片规则(sharding rule) 为典型的字符串枚举分片规则, 一个规则的定义是 分片字段+分片函数 。这里的分片字段为 status,分片函数则为 字符串枚举方式。
MyCat收到一条SQL语句时,首先解析SQL语句涉及到的表,接着查看此表的定义,如果该表存在分片规则,则获取SQL语句里分片字段的值,并匹配分片函数,得到该SQL语句对应的分片列表,然后将SQL语句发送到相应的分片去执行,最后处理所有分片返回的数据并返回给客户端。以"select * from user where status=‘0’" 为例, 查找 status=‘0’ ,按照分片函数, ‘0’ 值存放在dn1,于是SQL语句被发送到第一个节点中执行, 然后再将查询的结果返回给用户。