1 部署环境架构
准备 2 台机器 DMTEST1、DMTEST2 用来部署主 DM 数据守护与读写分离集群 V4.0 179,
确认监视器部署到 DMTEST1 上。
其中全部配置一台网卡。
2 台机器事先都安装了 DM,安装路径为’/dmdb’,执行程序保存在’/dmdb/bin’目录中, 数据存放路径为’/dmdata’。
本部署中组名为“GRP1”,配置为读写分离集群,主库命 名为“DMTEST1”,备库分别命名为“DMTEST12”。
两台机器操作系统环境均为 Redhat7.8,安装数据库均为 DM8,DMTEST3 用于安装监视器。
实例名 | PORT_NUM | MAL_INST_DW_PORT | MAL_HOST | MAL_PORT | MAL_PORT |
---|---|---|---|---|---|
DMTEST1 | 5236 | 5260 | 对外服务:192.168.3.99 对内监听:192.168.3.98 | 5240 | 5250 |
DMTEST2 | 5237 | 5261 | 对外服务:192.168.3.88 对内监听:192.168.3.87 | 5241 | 5251 |
DMTEST3 | 5238 | 192.168.3.77 |
2 数据准备
先对备库进行初始化。然后进行备库数据库准备。
本次测试对备库采用了联机备份,脱机还原的方式进行的备库还原。
- 对主库进行联机备份操作
SQL> BACKUP DATABASE BACKUPSET '/dmdata/dmtest1/bak/BACKUP_FILE_01';
- 拷贝备份文件到备库所在机器
- 执行脱机数据库还原与恢复 DM 数据守护与读写分离集群 V4.0 166
./dmrman CTLSTMT="RESTORE DATABASE '/dmdata/dmtest2/dm.ini' FROM BACKUPSET '/dmdata/soft/BACKUP_FILE_01'"
./dmrman CTLSTMT="RECOVER DATABASE '/dmdata/dmtest2/dm.ini' FROM BACKUPSET '/dmdata/soft/BACKUP_FILE_01'"
./dmrman CTLSTMT="RECOVER DATABASE '/dmdata/soft/DAMENG/dm.ini' UPDATE DB_MAGIC"
3 配置主库 DMTEST1
3.1 配置 dm.ini
#实例名,建议使用―组名_守护环境 _序号‖的命名方式,总长度不能超过 16
INSTANCE_NAME = DMTEST1
PORT_NUM = 5236 #数据库实例监听端口
DW_INACTIVE_INTERVAL = 60 #接收守护进程消息超时时间
ALTER_MODE_STATUS = 0 #不允许手工方式修改实例模式/状态/OGUID
ENABLE_OFFLINE_TS = 2 #不允许备库 OFFLINE 表空间
MAL_INI = 1 #打开 MAL 系统
ARCH_INI = 1 #打开归档配置
RLOG_SEND_APPLY_MON = 64 #统计最近 64 次的日志发送信息
3.2 配置 dmmal.ini
配置 MAL 系统,各主备库的 dmmal.ini 配置必须完全一致,MAL_HOST 使用内部网 络 IP,
MAL_PORT 与 dm.ini 中 PORT_NUM 使用不同的端口值,MAL_DW_PORT 是各实例 对应的
守护进程之间,以及守护进程和监视器之间的通信端口,配置如下:
MAL_CHECK_INTERVAL = 5 #MAL 链路检测时间间隔
MAL_CONN_FAIL_INTERVAL = 5 #判定 MAL 链路断开的时间
[MAL_INST1]
MAL_INST_NAME = DMTEST1 #实例名,和 dm.ini 中的 INSTANCE_NAME 一致
MAL_HOST = 192.168.3.98 #MAL 系统监听 TCP 连接的 IP 地址
MAL_PORT = 5240 #MAL 系统监听 TCP 连接的端口
MAL_INST_HOST = 192.168.3.99 #实例的对外服务 IP 地址
MAL_INST_PORT = 5236 #实例的对外服务端口,和 dm.ini 中的 PORT_NUM一致
MAL_DW_PORT = 5250 #实例对应的守护进程监听 TCP 连接的端口
MAL_INST_DW_PORT = 5260
[MAL_INST2]
MAL_INST_NAME = DMTEST2
MAL_HOST = 192.168.3.87
MAL_PORT = 5241
MAL_INST_HOST = 192.168.3.88
MAL_INST_PORT = 5237
MAL_DW_PORT = 5251
MAL_INST_DW_PORT = 5261
3.3 配置 dmarch.ini
修改 dmarch.ini,配置本地归档和即时归档。除了本地归档外,其他归档配置项中的
ARCH_DEST 表示实例是 Primary 模式时,需要同步归档数据的目标实例名。
[ARCHIVE_TIMELY1]
ARCH_TYPE = REALTIME #即时归档类型
ARCH_DEST = dmtest2 #即时归档目标实例名
[ARCHIVE_LOCAL1]
ARCH_TYPE = LOCAL #本地归档类型
ARCH_DEST = /dmdata/dmtest1/arch #本地归档文件存放路径
ARCH_FILE_SIZE = 128 #单位 Mb,本地单个归档文件最大值
ARCH_SPACE_LIMIT = 0 #单位 Mb,0 表示无限制,范围 1024~2147483647M
3.4 配置 dmwatcher.ini
修改 dmwatcher.ini 配置守护进程,配置为全局守护类型,使用自动切换模式。
[GRP1]
DW_TYPE = GLOBAL #全局守护类型
DW_MODE = AUTO #自动切换模式
DW_ERROR_TIME = 10 #远程守护进程故障认定时间
INST_RECOVER_TIME = 60 #主库守护进程启动恢复的间隔时间
INST_ERROR_TIME = 10 #本地实例故障认定时间
INST_OGUID = 453332 #守护系统唯一 OGUID 值
INST_INI = /dmdata/dmtest1/dm.ini #dm.ini 配置文件路径
INST_AUTO_RESTART = 1 #打开实例的自动启动功能
INST_STARTUP_CMD = /dmdb/bin/dmserver #命令行方式启动
RLOG_SEND_THRESHOLD = 0 #指定主库发送日志到备库的时间阀值,默认关闭
RLOG_APPLY_THRESHOLD = 0 #指定备库重演日志的时间阀值,默认关闭
4 启动主库
以 Mount 方式启动主库
./dmserver /dmdata/dmtest1/dm.ini mount
4.1 设置 OGUID
启动命令行工具 DIsql,登录主库设置 OGUID 值。
SQL>SP_SET_PARA_VALUE(1, 'ALTER_MODE_STATUS', 1);
SQL>sp_set_oguid(453332);
SQL>SP_SET_PARA_VALUE(1, 'ALTER_MODE_STATUS', 0);
4.2 修改数据库模式
启动命令行工具 DIsql,登录主库修改数据库为 Primary 模式
SQL>alter database primary;
5 配置备库
5.1 配置 dm.ini
#实例名,建议使用―组名_守护环境_序号‖的命名方式,总长度不能超过 16
INSTANCE_NAME = DMTEST2
PORT_NUM = 5237 #数据库实例监听端口
DW_INACTIVE_INTERVAL = 60 #接收守护进程消息超时时间
ALTER_MODE_STATUS = 0 #不允许手工方式修改实例模式/状态/OGUID
ENABLE_OFFLINE_TS = 2 #不允许备库 OFFLINE 表空间
MAL_INI = 1 #打开 MAL 系统
ARCH_INI = 1 #打开归档配置
RLOG_SEND_APPLY_MON = 64 #统计最近 64 次的日志重演信息
5.2 配置 dmmal.ini
配置 MAL 系统,各主备库的 dmmal.ini 配置必须完全一致,MAL_HOST 使用内部网络 IP,
MAL_PORT 与 dm.ini 中 PORT_NUM 使用不同的端口值,MAL_DW_PORT 是各实例 对应的
守护进程之间,以及守护进程和监视器之间的通信端口,配置如下:
MAL_CHECK_INTERVAL = 5 #MAL 链路检测时间间隔
MAL_CONN_FAIL_INTERVAL = 5 #判定 MAL 链路断开的时间
[MAL_INST1]
MAL_INST_NAME = DMTEST1 #实例名,和 dm.ini 中的 INSTANCE_NAME 一致
MAL_HOST = 192.168.3.98 #MAL 系统监听 TCP 连接的 IP 地址
MAL_PORT = 5240 #MAL 系统监听 TCP 连接的端口
MAL_INST_HOST = 192.168.3.99 #实例的对外服务 IP 地址
MAL_INST_PORT = 5236 #实例的对外服务端口,和 dm.ini 中的 PORT_NUM
一致
MAL_DW_PORT = 5250 #实例对应的守护进程监听 TCP 连接的端口
MAL_INST_DW_PORT = 5260
[MAL_INST2]
MAL_INST_NAME = DMTEST2
MAL_HOST = 192.168.3.87
MAL_PORT = 5241
MAL_INST_HOST = 192.168.3.88
MAL_INST_PORT = 5237
MAL_DW_PORT = 5251
MAL_INST_DW_PORT = 5261
5.3 配置 dmarch.ini
修改 dmarch.ini,配置本地归档和实时归档。 除了本地归档外,其他归档配置项中的
ARCH_DEST 表示实例是 Primary 模式时,需 要同步归档数据的目标实例名。
[ARCHIVE_TIMELY1]
ARCH_TYPE = REALTIME #即时归档类型
ARCH_DEST = dmtest1 #即时归档目标实例名
[ARCHIVE_LOCAL1]
ARCH_TYPE = LOCAL #本地归档类型
ARCH_DEST = /dmdata/dmtest2/arch #本地归档文件存放路径
ARCH_FILE_SIZE = 128 #单位 Mb,本地单个归档文件最大值
ARCH_SPACE_LIMIT = 0 #单位 Mb,0 表示无限制,范围 1024~4294967294M
5.4 配置 dmwatcher.ini
修改 dmwatcher.ini 配置守护进程,配置为全局守护类型,使用自动切换模式。
[GRP1]
DW_TYPE = GLOBAL #全局守护类型
DW_MODE = AUTO #自动切换模式
DW_ERROR_TIME = 10 #远程守护进程故障认定时间
INST_RECOVER_TIME = 60 #主库守护进程启动恢复的间隔时间
INST_ERROR_TIME = 10 #本地实例故障认定时间
INST_OGUID = 453332 #守护系统唯一 OGUID 值
INST_INI = /dmdata/dmtest2/dm.ini #dm.ini 配置文件路径
INST_AUTO_RESTART = 1 #打开实例的自动启动功能
INST_STARTUP_CMD = /dmdb/bin/dmserver #命令行方式启动
RLOG_SEND_THRESHOLD = 0 #指定主库发送日志到备库的时间阀值,默认关闭
RLOG_APPLY_THRESHOLD = 0 #指定备库重演日志的时间阀值,默认关闭
6 启动备库
以 Mount 方式启动备库。
./dmserver /dm/data/DAMENG/dm.ini mount
6.1 设置 OGUID
启动命令行工具 DIsql,登录备库设置 OGUID 值。
SQL>SP_SET_PARA_VALUE(1, 'ALTER_MODE_STATUS', 1);
SQL>sp_set_oguid(453332);
SQL>SP_SET_PARA_VALUE(1, 'ALTER_MODE_STATUS', 0);
6.2 修改数据库模式
启动命令行工具 DIsql,登录备库修改数据库为 Standby 模式。
SQL>SP_SET_PARA_VALUE(1, 'ALTER_MODE_STATUS', 1); ----第 1 步
SQL>alter database standby; ----第 2 步
SQL>SP_SET_PARA_VALUE(1, 'ALTER_MODE_STATUS', 0); ----第 3 步
7 配置确认监视器
在 DMTEST3 中修改 dmmonitor.ini 配置确认监视器,其中 MON_DW_IP 中的 IP 和 PORT
和 dmmal.ini 中的 MAL_HOST 和 MAL_DW_PORT 配置项保持一致。
[GRP1]
DW_TYPE = GLOBAL #全局守护类型
DW_MODE = AUTO #自动切换模式
DW_ERROR_TIME = 10 #远程守护进程故障认定时间
INST_RECOVER_TIME = 60 #主库守护进程启动恢复的间隔时间
INST_ERROR_TIME = 10 #本地实例故障认定时间
INST_OGUID = 453332 #守护系统唯一 OGUID 值
INST_INI = /dmdata/dmtest1/dm.ini #dm.ini 配置文件路径
INST_AUTO_RESTART = 1 #打开实例的自动启动功能
INST_STARTUP_CMD = /dmdb/bin/dmserver #命令行方式启动
RLOG_SEND_THRESHOLD = 0 #指定主库发送日志到备库的时间阀值,默认关闭
RLOG_APPLY_THRESHOLD = 0 #指定备库重演日志的时间阀值,默认关闭
[dmdba@single2 dmtest1]$ cat dmmonitor.ini
MON_DW_CONFIRM = 1 #确认监视器模式
MON_LOG_PATH = /dmdb/log #监视器日志文件存放路径
MON_LOG_INTERVAL = 60 #每隔 60s 定时记录系统信息到日志文件
MON_LOG_FILE_SIZE = 32 #每个日志文件最大 32M
MON_LOG_SPACE_LIMIT = 0 #不限定日志文件总占用空间
[GRP1]
MON_INST_OGUID = 453332 #组 GRP1 的唯一 OGUID 值
#以下配置为监视器到组 GRP1 的守护进程的连接信息,以―IP:PORT‖的形式配置
#IP 对应 dmmal.ini 中的 MAL_HOST,PORT 对应 dmmal.ini 中的 MAL_DW_PORT
MON_DW_IP = 192.168.3.99:5250
MON_DW_IP = 192.168.3.88:5251
8 启动守护进程
启动各个主备库上的守护进程:
./dmwatcher /dm/data/DAMENG/dmwatcher.ini
守护进程启动后,进入 Startup 状态,此时实例都处于 Mount 状态。守护进程开始 广播
自身和其监控实例的状态信息,结合自身信息和远程守护进程的广播信息,守护进程将 本
地实例 Open,并切换为 Open 状态。
9 启动监视器
DMTEST3 启动监视器:
./dmmonitor /dm/data/dmmonitor.ini
监视器提供一系列命令,支持当前守护系统状态查看以及故障处理,可输入 help 命令, 查
看各种命令说明使用,结合实际情况选择使用。 至此读写分离集群搭建完毕,在搭建步骤
和各项配置都正确的情况下,在监视器上执行 show 命令,可以监控到所有实例都处于
Open 状态,所有守护进程也都处于 Open 状态,即为正常运行状态。
10 后继:注册服务
10.1 主库注册服务
./dm_service_installer.sh -t dmwatcher -p TEST1 -dm_ini /dmdata/dmtest1/dmwatcher.ini
./dm_service_installer.sh -t dmwatcher -p TEST1 -dm_ini /dmdata/dmtest1/dm.ini -watcher_ini /dmdata/dmtest1/dmwatcher.ini
10.2 备库注册服务
./dm_service_installer.sh -t dmwatcher -p TEST2 -dm_ini /dmdata/dmtest2/dmwatcher.ini
./dm_service_installer.sh -t dmwatcher -p TEST2 -dm_ini /dmdata/dmtest2/dm.ini -watcher_ini /dmdata/dmtest2/dmwatcher.ini
10.3 监视数据库注册服务
./dm_service_installer.sh -t dmwatcher -p TEST3 -dm_ini /dmdata/dmtest3/dmwatcher.ini
./dm_service_installer.sh -t dmmonitor -p TEST3 -dm_ini /dmdata/dmtest3/dm.ini -monitor_ini /dmdata/dmtest3/dmmonitor.ini
10.4 增加非确认监视器
cat dmmonitor1.ini
MON_DW_CONFIRM = 0 #确认监视器模式
MON_LOG_PATH = /dmdb/log #监视器日志文件存放路径
MON_LOG_INTERVAL = 60 #每隔 60s 定时记录系统信息到日志文件
MON_LOG_FILE_SIZE = 32 #每个日志文件最大 32M
MON_LOG_SPACE_LIMIT = 0 #不限定日志文件总占用空间
[GRP1]
MON_INST_OGUID = 453332 #组 GRP1 的唯一 OGUID 值
#以下配置为监视器到组 GRP1 的守护进程的连接信息,以―IP:PORT‖的形式配置
#IP对应 dmmal.ini 中的 MAL_HOST,PORT 对应 dmmal.ini 中的 MAL_DW_PORT
MON_DW_IP = 192.168.3.99:5250
MON_DW_IP = 192.168.3.88:5251
主备自动切换故障测试
tip:请注意监视器是否启动,监视器是否额外安装在单独的系统中。
主库数据库实例异常终止,主库守护进程正常,或者主库硬件故障、或者数据库实例和守护进程同时故障。
目前状态
192.168.3.88为主库,192.169.3.99为备库
模拟主库实例出现故障
kill杀掉主库server服务,如下
此时DMTEST1备库自动切换成主库
监视器将DMTEST2的server服务自动拉起,并将其切换为备库,
网络出现故障,或者主备库之间、主库和监视器之间连接异常。
现DMTEST1为主库,将DMTEST1的网卡下线,模拟网络故障。
查看DMTEST2,已经自动切换为主库了。
若想实现备库自动接管,主库、归档状态、备库都必须符合一定条件才行。条件如下:
- 主库是 Primary 模式、Open 状态时,产生故障。
- 主库守护进程故障,故障前是 Open/Recovery 状态。
- 故障主库与接管备库和确认监视器之间的 MAL 链路断开。
- 故障主库到接管备库的归档状态为 Valid。
- 接管备库是 Standby 模式、Open 状态。
有时候并不是每一次自动切换都可以成功,比如主库故障前进行了switchover/Takeover等命令。那时候需要我们通过命令方式进行人工干预。
更多资讯请上达梦技术社区了解:https://eco.dameng.com