【openGauss技术文章征集】openGauss极致RTO日志处理流程简介

极致RTO简单介绍

极致RTO是openGauss在并行回放的基础上,实现的一个加速回放功能。其主要原理是将record粒度的日志拆分成block粒度的日志进行回放,通过增加流水线和redoworker线程的数量,并且利用相关hash算法,保证同一张表的日志由同一流水线回放,以此提高回放速度和回放并发度。

极致RTO相关参数

recovery_parse_workers > 1 或 recovery_redo_workers > 1,即为开启极致TO.

recovery_parse_workers

参数说明: 是极致RTO特性中ParseRedoRecord线程的数量。

该参数属于POSTMASTER类型参数,请参考表1中对应设置方法进行设置。

取值范围:整型,1~16

仅在开启极致RTO情况下可以设置recovery_parse_workers为>1。需要配合recovery_redo_workers使用。若同时开启recovery_parse_workers和recovery_max_workers,以开启极致RTO的recovery_parse_workers为准,并行回放特性失效。因极致RTO不支持主备从模式,仅在参数replication_type设置成1时可以设置recovery_parse_workers为>1。另外,极致RTO也不支持列存,在已经使用列存表或者即将使用列存表的系统中,请关闭极致RTO。极致RTO不再自带流控,流控统一由recovery_time_target参数来控制。

默认值: 1

recovery_redo_workers

参数说明: 是极致RTO特性中每个ParseRedoRecord线程对应的PageRedoWorker数量。

该参数属于POSTMASTER类型参数,请参考表1中对应设置方法进行设置。

取值范围:整型,1~8

需要配合recovery_parse_workers使用。在配合recovery_parse_workers使用时,只有recovery_parse_workers大于1,recovery_redo_workers参数才生效。

默认值: 1

极致RTO回放线程类型

REDO_BATCH 负责record粒度的日志拆分成block粒度,并分发给redo manager线程

REDO_PAGE_MNG, 负责向redo worker线程分发xlog

REDO_PAGE_WORKER, 负责回放

REDO_TRXN_MNG, 负责向trxn worker分发xlog

REDO_TRXN_WORKER, 负责回放事务日志

REDO_READ_WORKER, 流复制场景,用于从磁盘读xlog

REDO_READ_PAGE_WORKER, 负责从磁盘读取xlog或从xlog缓冲区读取xlog,并校验完整性

REDO_READ_MNG, 负责控制读xlog线程

REDO_SEG_WORKER, 按需回放新增线程,

REDO_HTAB_MNG, 按需回放新增线程,

REDO_CTRL_WORKER, 按需回放新增线程,

Startup线程:负责将日志分发给对应的流水线

极致RTO流水线示意图

极致RTO后台有多个流水线,由recovery_parse_workers 参数控制,通过特定的hash算法,可以保证同一个表的日志一定会路由到特定的流水线回放,以保证日志回放时有序
在这里插入图片描述

各线程功能简述

REDO_READ_WORKER

主函数:XLogReadWorkerMain

流复制场景,用于从磁盘读xlog,该线程会把xlog从磁盘读取到g_recordbuffer->xlogsegarray[readindex],read buffer中。

代码流程

XLogReadWorkerMain->XLogReadWorkRun->XLogReadFromWriteBuffer
在这里插入图片描述

REDO_READ_PAGE_WORKER

XLogReadPageWorkerMain,循环读取xlog,将读到的xlog record,解析为XLogReaderState,并置入g_dispatcher->readLine.readPageThd->queue传递给startup线程

  • 流复制场景(传统主备),
    • failover阶段,IsRecoveryDone == false,从磁盘读xlog。
    • 备机normal状态,IsRecoveryDone == true,用于从g_recordbuffer->xlogsegarray[readindex]缓冲区读取日志,传递给Startup线程。
  • 资源池化场景,XLogReadPageWorkerMain同时负责读取xlog和解析xlog传递给startup线程。

代码流程

xlog读取主流程

XLogReadPageWorkerMain->XLogParallelReadNextRecord->ParallelReadRecord->ParallelReadPageInternal->ParallelXLogPageRead

读xlog的场景分类

  1. 流复制场景(传统主备):ParallelXLogReadWorkBufRead->XLogPageReadForExtRto
  2. 资源池化,从DSS读xlog文件:SSXLogPageRead
  3. 非池化,通过文件系统读xlog文件:ParallelXLogPageReadFile

XLogReadPageWorkerMain循环流程

读xlog:XLogParallelReadNextRecord

生成下一个readerState: NewReaderState

更新读取最新xlog的起止点:

g_redoWorker->lastReplayedReadRecPtr = xlogreader->ReadRecPtr;
g_redoWorker->lastReplayedEndRecPtr = xlogreader->EndRecPtr;

更新g_GlobalLsnForwarder:SendLsnFowarder

把读到的xlog(XLogReaderState)存入队列:PutRecordToReadQueue
在这里插入图片描述

StartupXLOG

代码流程

循环执行以下流程直到XLogReaderState == NULL

  • 从队列中读取下一条xlog:ReadNextXLogRecord->ReadNextRecordFromQueue->SPSCBlockingQueueTake(g_dispatcher->readLine.readPageThd->queue)
    • 读取获取到record后解析xlog,从XLogReaderState解析到XLogRecord,DecodeXLogRecord
    • 如果读到g_redoEndMark.record,则退出循环
    • 如果读取到g_GlobalLsnForwarder.record或g_cleanupMark.record,调用StartupSendFowarder,向所有batchRedo线程和txnmanager线程分发该日志
  • 将xlog解析成RedoItem ,并分发给下一级流水线线程
    • DispatchRedoRecord->ExtremeDispatchRedoRecordToFile->g_dispatchTable[rmid].rm_dispatch(record, expectedTLIs, recordXTime);
    • 根据XLogReaderState 偏移获取RedoItem : RedoItem *item = GetRedoItemPtr(record);
    • 根据xlog的类型(rmid),选择对应的分发方法:g_dispatchTable[rmid].rm_dispatch(record, expectedTLIs, recordXTime);
      • 普通日志通常分发给batchRedo线程(g_dispatcher->pageLines[i].batchThd)。其中,同一个表的日志一般发给某个特定流水线,会通过rnode计算流水线Id:GetSlotId
      • 事务日志分发给txnmanager线程。(g_dispatcher->trxnLine.managerThd),对应函数:DispatchXactRecord
      • ddl相关日志create、truncate,

分发策略:

极致RTO通过函数向下级流水线分发ExtremeDispatchRedoRecordToFile

具体分发方法会根据xlog类型rmid选择对应的分发算法g_dispatchTable[rmid].rm_dispatch(record, expectedTLIs, recordXTime);

在选择流水线时,为了尽量避免回放时的页面交换问题,极致RTO根据relfilenode计算hash值,该hash值用于选择哪一条流水线向下分发日志。对应函数:GetWorkerIds。

在这里插入图片描述

BatchRedoMain

循环把record级别的xlog(RedoItem)解析成Block级别的xlog(XLogRecParseState),并传递给PageRedoManager线程进行回放。

  • 从流水线中循环读取区出xlog:BatchRedoMain->SPSCBlockingQueueGetAll(g_redoWorker->queue, &eleArry, &eleNum)
  • 把record级别的xlog(RedoItem)解析成Block级别的xlog(XLogRecParseState): BatchRedoDistributeItems->BatchRedoParseItemAndDispatch->XLogParseToBlockForExtermeRTO->g_xlogParseBlockTable[rmid].xlog_parseblock(record, blocknum)
  • 把 Block级别的xlog分发给下一级流水线:AddPageRedoItem(myRedoLine->managerThd, recordblockstate);
    在这里插入图片描述

RedoPageManagerMain

把XLogRecParseState根据rnode等信息,分发给RedoPageWorker线程,

  • RedoPageManagerMain->PageManagerRedoDistributeItems->PageManagerRedoParseState->根据日志类型选择解析方式
  • AddPageRedoItem(myRedoLine->redoThd[work_id], record_block_state);
    在这里插入图片描述

RedoPageWorkerMain

回放上一层流水线下发的日志。不同xlog类型执行函数不同

RedoPageWorkerMain->XLogBlockRedoForExtremeRTO->g_xlogExtRtoRedoTable[block_valid].xlog_redoextrto(blockhead, blockrecbody, bufferinfo);

一些关键变量

特殊xlog标记

RedoItem g_redoEndMark = { false, false, NULL, 0, NULL, 0 };

RedoItem g_terminateMark = { false, false, NULL, 0, NULL, 0 };

RedoItem g_GlobalLsnForwarder;

RedoItem g_cleanupMark;

RedoItem g_closefdMark;

RedoItem g_cleanInvalidPageMark;

不同类型XLOG的处理函数

极致RTOxlog分发函数

src\gausskernel\storage\access\transam\extreme_rto\dispatcher.cpp

static const RmgrDispatchData g_dispatchTable[RM_MAX_ID + 1]

极致RTO batchRedo线程解析函数

src\gausskernel\storage\access\redo\redo_xlogutils.cpp

static const XLogParseBlock g_xlogParseBlockTable[RM_MAX_ID + 1] = {

极致RTO 回放函数

src\gausskernel\storage\access\redo\redo_xlogutils.cpp

static const XLogBlockRedoExtreRto g_xlogExtRtoRedoTable[BLOCK_DATA_CSNLOG_TYPE + 1] = {
    { XLogBlockDataCommonRedo, BLOCK_DATA_MAIN_DATA_TYPE }, { XLogBlockVmCommonRedo, BLOCK_DATA_VM_TYPE },
    { XLogBlockUndoCommonRedo, BLOCK_DATA_UNDO_TYPE },
    { XLogBlockFsmCommonRedo, BLOCK_DATA_FSM_TYPE },        { XLogBlockDdlCommonRedo, BLOCK_DATA_DDL_TYPE },
    { XLogBlockBcmCommonRedo, BLOCK_DATA_BCM_TYPE },        { XLogBlockNewCuCommonRedo, BLOCK_DATA_NEWCU_TYPE },
    { XLogBlockClogCommonRedo, BLOCK_DATA_CLOG_TYPE },      { XLogBlockCsnLogCommonRedo, BLOCK_DATA_CSNLOG_TYPE },
};
  • 18
    点赞
  • 28
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值