前提
PostgreSQL官方版本并没有实现基于块损坏的在线恢复机制,对于PG如果发生物理块损坏的处理就是报错,然后终止当前事务,如下报错信息:
corrupted page pointers: lower = 11, upper = 333, special = 5555
下面的内容仅代表个人对这个功能实现的一种设计,如有不完善的地方还望提点,谢谢。
基本思路
对于块物理损坏单机自行进行修复是比较困难的,而且我们要满足服务器在线恢复,不能停止服务,那么难度就更大了。我们自然要考虑从一个备库去回去完整的页面来替换之,但是现有的备份还原工具,例如pg_dump, pg_restore都需要停止服务,然后才能实施恢复。
我们要实现在线恢复,就不能是文件替换,必须从数据库内核buffer去替换损坏的页面,就像一次正常的页面提交一样去替换掉坏的页面。如果我们不走内核,通过外部路径直接替换或修改物理文件会和内核对页面的提交产生冲突,最后可能会失败。
基于以上的基本思路,我们需要解决以下一个问题:
- 当客户端在正常访问数据时提示页块错误,如何处理流程使用户无感或者手动的的恢复单个页面?
- 被损坏页面在损坏前的完整页面如