PostgreSQL是当今最广泛应用的数据库系统(DBMS)之一。除了由于其具有优秀的性能、良好的兼容性之外,其完全开源的特性、完整的事务能力也是其中重要的原因。PostgreSQL支持完整的ACID特性,支持RC/RR/SSI等隔离级别。
Greenplum是一种广泛使用的,基于PG进行开发的MPP架构的分布式数据库。GP不仅高度兼容PG生态,还保持了PG包含支持完整事务的优点。GP本地事务的实现与PG基本一致,但为了保证多节点之间的事务状态一致性,GP引入两阶段提交协议来实现分布式事务。
本文主要简化的介绍PG的事务模型和Greenplum基于两阶段提交的分布式事务。具体地,本文会首先介绍单机事务、ACID特性,以及PG中的事务实现;然后介绍一种分布式事务协议——两阶段提交协议,分析其实现、优点和局限性,并简单介绍以3PC为代表的两阶段提交协议优化。
事务
ACID
nothing or all atomic
befor or after atomic看不到其他事务未提交的信息。
PG中的事务实现
事务总体实现
PG是进程模型,当postmaster接收到外部连接后,会fork出一个postgres进程,以处理外部请求。
每个Postgres进程会创建一个事务块(TransactionBlock)以处理这个进程中的所有事务。一个事务块处理多个事务。PG基于状态机去管理事务块和事物的状态,而状态转换往往是由外部命令(BEGIN/END/ROLLBACK/COMMIT/ABORT/DDL/DML)所触发的。
事务块状态转换
事务块的基本操作函数包括StartTransactionCommand、CommitTransactionCommand和AbortCurrentTranscation。这些函数可能会在我们手动执行BEGIN、END、ROLLBACK命令时候显式调用,或者我们执行某些增删改查、使用某些UDF,或者使用某些数据库功能(分层存储、数据共享)的时候会自动调用。
当数据库开发者认为某些操作需要在一个事务中进行,就可能会添加一条StartTransactionCommand/CommitTransactionCommand指令让事务块进入开启/提交事务的状态。这些事务块进行状态转移的时候也会对应调用事务处理函数(StartTransaction、CommitTransaction等)对具体事务进行实际的处理。
事务状态转换:
上述事务块操作主要是修改全局的状态量,并不会做日志持久化、文件IO等具体工作,这些具体工作是由事务操作函数StartTransaction、CommitTransaction、AbortTransaction等实际操作的。
事务也包含多种状态:
TRANS_DEFAULT, /* idle */
TRANS_START, /* transaction starting */
TRANS_INPROGRESS, /* inside a valid transaction */
TRANS_COMMIT, /* commit in progress */
TRANS_ABORT, /* abort in progress */
TRANS_PREPARE