高可用方案之PostgreSQL的逻辑复制和物理复制（二）

最新推荐文章于 2024-09-10 10:20:40 发布

Glyann

最新推荐文章于 2024-09-10 10:20:40 发布

阅读量3.1k

点赞数

分类专栏： postgresql Centos 文章标签： postgresql 多可用方案

本文链接：https://blog.csdn.net/Gzigithub/article/details/87919185

版权

postgresql 同时被 2 个专栏收录

9 篇文章 0 订阅

订阅专栏

Centos

9 篇文章 0 订阅

订阅专栏

1、physical 复制的两种思路

1.1、知识点：什么是归档 archive ？

arhive_mode=on 开启归档进程，服务里会多一个归档进程

当启用archive_mode时，通过设置archive_command将已完成的WAL段发送到归档存储

注意：触发归档有三种方式：

1.手动切换wal日志，select pg_switch_wal()

2.wal日志写满后触发归档，配置文件默认达到16M后就会触发归档，wal_keep_segments = 16

3.归档超时触发归档，archive_timeout

archive_mode=on

archive_command=' test ! cp %p /data/%f'

特别要注意 /data 这个归档文件夹需要有 postgres的写权限

若没有，则 archiver process 会失败；查看pg_log可以知道原因

1.2、什么是pg_basebackup？

pg_basebackup 是一个备份命令

用法： /opt/PostgreSQL/10/bin/pg_basebackup -h xxx.xx.x.xx -R -D /opt/PostgreSQL/10/data -U postgres -W

-D 指定备份文件将要写入的目录

-h 要备份的主机

-R 是否写 recovery.conf

在仅添加 -D 情况下，仅仅相当于复制，除开pid文件等；scp 可以在新机器上systemctl restart postgresql-10 也是可以使用的

可以对比直接 scp data文件夹到新机器上，然后启动服务的效果；

（注意文件夹权限，data文件夹必须为postgres可以访问）

1.3、为什么不直接scp，而要pg_basebackup呢？

因为pg_basebackup 除了复制，还将主库进入备份模式，复制，再退出主库的备份模式；同时，被复制出来的data文件夹里也自动删除了 posmaster.pid 。如果有 -R 参数，还会自动传教 recover.conf 。

1.4、什么是 recovery.conf ？

当数据库重启时，会检查自动redo wal日志。

在将wal日志 redo完之前，都是恢复模式

若data文件下配置了 recovery.conf 会先根据此文件中的内容做一些事情。

当standby_mode=on 时，系统处于恢复模式。

恢复模式下，只可读不可写；可以重放wal日志。

表现一：此时若把新的wal日志copy到 pg_wal 文件夹下，则会自动apply这个日志，实现数据库的更新

表现二：此时若 restore_command 里有内容，则执行resotre_command 里的命令

restore_command 命令示例： restore_command ='cp /path/%f %p'

表现三：若此时

primary_conninfo = 'user=xxxx password=xxxx host=xxx.xx.x.xx port=5432 sslmode=prefer sslcompression=1 krbsrvname=postgres target_session_attrs=any'

则为流复制，不断执行流传输过来的wal日志

2、流复制

配置流复制，主库只要开启 replication 权限（pg_hba.conf)，添加红线一行

我是新装的postgresql-10，安装过程就不再介绍了，安装好后需要修改pg_hba.conf文件,修改内容为下面红线部分：

然后执行命令： systemctl restart postgresql-10 重启数据库就可以了

为了测试，需要建立表，执行：SELECT random() as t_1 into test_1;建立一个test_1的表，查看数据如下：

然后再是从库，

1、先形成一个主库的基本备份

2、配置 recover.conf ,开启流复制

3、重新启动

1 和2 可以通过 /opt/PostgreSQL/10/bin/pg_basebackup -h xxx.xx.x.xx -R -D /opt/PostgreSQL/10/data -U postgres -W 一步到位

我是另一台机子上新装的postgresql-10，把PostgreSQL里面data删了，然后执行 /opt/PostgreSQL/10/bin/pg_basebackup -h xxx.xx.x.xx -R -D /opt/PostgreSQL/10/data -U postgres -W命令，在这之前你会发现你的data为root用户的权限，你需要改成postgres用户的权限，执行chown -R postgres:postgres data/，如下：

重启数据库systemctl start postgresql-10，查看数据库数据，发现也有一个test_1表，数据和主库一样

查看进程：

主库下的进程：

从库下的进程：

注意：9.x版本有些不同， 9.x版本需要修改postgresql.conf 的"hot_standby=on"，我的10.6版本是默认为on，如果此项不设置，从库数据库会打不开，因为数据接收不全，导致出错

记住，从库的数据库是只读，不能更改，而且从库的数据会随主库改变而变化，只有主从库的那两个进程还在。

3、归档恢复（archive recover）

一个wal日志一个wal日志的恢复

关键在看懂 recover.conf pg_home/share/下有例子

# When standby_mode is enabled, the PostgreSQL server will work as a

# standby. It will continuously wait for the additional XLOG records, using

# restore_command and/or primary_conninfo.

standby_mode=on 的时候，从数据库不允许其他读写，只允许自己内部的 restore ；

流复制的时候，使用的是 primary_conninfo 自动复制、恢复

日志复制，需要执行 restore_command 命令，来达到同样的效果；

PITR恢复是基于文件系统备份和wal文件的备份

若standby_mode=off ,可手动启动恢复，by 重启服务

若 standby_mode=on , 自动执行restore_command

3.1、先看如何手动通过基础备份+wal日志来恢复一个数据库的

1 通过 pg_basebackup 获得了一 data文件夹；

我这里使用流复制的从库里面的data文件夹来做实验

2 在另外一台机器上（106.12.193.xxx）有 pg的安装文件（不包括data目录或删除掉）

3 将新的wal日志复制到待恢复的机器上

在从库的服务器上执行： scp -r data/ root@106.12.193.xxx:/opt/PostgreSQL/10/

4 启动服务

在106.12.193.xxx上执行：systemctl start postgresql-10，查看106.12.193.xxx数据库发现和从库的数据库一样的数据

可在recover.conf 中设置一些选项，控制恢复行为；比如 recovery_target_time = '2016-04-21 14:49:14' 控制恢复的截止时间

3.2、wal复制，完整操作流程

1 在从库上通过pg_basebackup 获得基础备份,暂时不启动pg

2 在主库中定义 archive_mode= on

archive_command='cp %p /data/%f'

chown -R postgres:postgres data/

3 从库上编辑 recovery.conf

standby_mode=on

restore_command ='scp postgres@xxx.xx.x.x:/opt/postgresql/10/data/%f%p'

standby_mode下的进程

3.3、逻辑复制

物理复制下的进程

修改 wal_level=logical 同时注释掉 archive_mode 和 archive_command后的进程

在master某张表上创建发布者

create publication test10_pub for table test10;

在订阅者上创建订阅

create subscription test10_sub connection 'host=xxx.xx.x.xx user=postgres password=xxxxx dbname=postgres' publication test10_pub;

此时在naster上的进程

subscr上的进程

注意事项和概念

发布者需要设置wal_level=logical，同时开启足够的worker，设置足够大的replication slot，设置足够多的sender。

因为每一个订阅，都要消耗掉一个replication slot，需要消耗一个wal sender，一个worker进程。

订阅者，需要指定发布者的连接信息，以及 publication name，同时指定需要在publication数据库中创建的slot name。

在同一个数据库中，可以创建多个订阅。

订阅者和发布者的角色可以同时出现在同一个实例的同一个数据库中。

注意，订阅者一样需要设置：

max_replication_slots

max_logical_replication_workers

max_worker_processe

1）发布端

1. wal_level=logical

2. max_replication_slots，每一个订阅需要消耗一个slot，每一个指定了slot的流式物理复制也要消耗一个slot。

3. max_wal_senders，每一个slot要使用一个wal sender，每一个流式物理复制也要使用一个wal sender。

4. max_worker_processes，必须大于等于max_wal_senders加并行计算进程，或者其他插件需要fork的进程数。

2）订阅端

1. max_replication_slots，大于等于该实例总共需要创建的订阅数

2. max_logical_replication_workers，大于等于该实例总共需要创建的订阅数

3. max_worker_processes，大于等于max_logical_replication_workers + 1 + CPU并行计算 + 其他插件需要fork的进程数.

逻辑复制，本质上是事务层级的复制，需要在订阅端执行SQL。

如果订阅端执行SQL失败（或者说引发了任何错误，包括约束等），都会导致该订阅暂停。

注意，update, delete没有匹配的记录时，不会报错，也不会导致订阅暂停。

用户可以在订阅端数据库日志中查看错误原因。

注意：逻辑复制，是跨平台的，跨版本的；而物理复制限于同平台，同版本

Glyann

关注

0
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录