在上一篇文章PostgreSQL之堆表存储(Heap Table)中我们了解了PostgreSQL中堆表的存储结构,以及对于堆表的tuple是如何写入和读取的,不过我们只涉及到如何把想要的tuple从表对应的页面读取出来或者把tuple如何写到页面去,但是关于tuple内部的细节并没有说明。本文我们将着重学习一下tuple的内部结构以及对于增删改操作tuple是如何变化的。
Tuple结构
一个Tuple的结构主要包含三部分:由HeapTupleHeaderData结构定义的头信息,NULL bitmap以及用户数据,如下图所示。
NULL bitmap和用户数据很好理解,那么重点就是这个Tuple的头信息里面都代表了啥,从上图中我们可以看出,header里面重点的信息为t_xmin、t_xmax、t_cid、t_ctid。
- t_xmin - 记录插入此行的事务号txid。
- t_xmax - 记录此行被删除的事务号txid。如果此行未被删除或更新,值为0。
- t_cid - 记录此行是在事务中的第几条SQL,如果是第一条值就是0,第二条值就是1,依次类推。比如对于’BEGIN;INSERT;INSERT;INSERT.COMMIT;'这样一个事务,这行是第三个INSERT中插入的,那么t_cid的值就是2。
- t_ctid - 记录tuple identifier(TID),我们在前面的文章了介绍了TID是由block number+offset number组成的一个二元组,因此这个t_ctid就是一个用二元组表示的TID。如果对应行没有被更新,那么值就代表这个行自己,如果行被更新了,值指向新的行。可以理解这个t_ctid就是一个行的物理地址,对应到哪个页面中的哪条tuple位置。
了解完Tuple的组成结构后,我们再看一下对于insert、update和delete操作对于Tuple的变更情况。
插入(Insert)
以下图为例,对于事务中只插入一条新记录,t_xmin会被填入对应事务号txid的值,t_xmax会被填入0因为这条数据没有被更新或删除,t_cid会被填入0因为这条insert语句是是事务中唯一的一条SQL,t_cid会被填入(0,1)代表这个表当前是空表这条数据是表的第一个页面中的第一条数据。
注:PG提供扩展pageinspect,可以查看数据库页面的内容。
testdb=# CREATE EXTENSION pageinspect;
CREATE EXTENSION
testdb=# CREATE TABLE tbl (data text);
CREATE TABLE
testdb=# INSERT INTO tbl VALUES('A');
INSERT 0 1
testdb=# SELECT lp as tuple, t_xmin, t_xmax, t_field3 as t_cid, t_ctid
FROM heap_page_items(get_raw_page('tbl', 0));
tuple | t_xmin | t_xmax | t_cid | t_ctid
-------+--------+--------+-------+--------
1 | 99 | 0 | 0 | (0,1)
删除(Delete)
由于PG支持多版本MVCC,对于删除操作并不会立即把对应的tuple删除掉,而是通过标记让数据库知道这条数据属于被删除的数据,本质上其实是通过给t_xmax赋值来实现的。
以下图为例,一个事务中只包含一条delete语句,操作后对应这条记录的t_xmin不变,t_xmax被填入删除操作所在事务的事务号txid,t_cid为0因为这个事务中只包含这一条语句,t_cid保持不变因为这个tuple仍然在原来的位置。
注:如刚刚的说,delete之后这条tuple仍然保留,后续可以通过数据库的VACUUM清理机制自动删除。
修改(Update)
修改操作比insert和delete会复杂一些。PG中的修改操作内部是转换成了delete+insert的方式。因此整体上是把原记录标记为删除状态,然后插入一条新的记录。
以下图为例,一个事务中先后执行两条update,第一条update操作后,原记录的t_xmax被填入事务号100表示这条数据被删除,t_ctid被填入为(0,2)用来指向新插入的记录。Tuple_2代表新插入的记录,它的t_xmin被填入这个事务的txid 100,t_xmax为0因为这是一条新的记录,t_cid为因为这条记录是事务中的第一条SQL,t_ctid为(0,2)因为这条记录是表中的第二条记录。
再看第二条update结束后,把刚刚的Tuple_2删除了然后插入了一个新的Tuple_3,所以Tuple_2的t_xmax被填入100,t_ctid被修改为(0,3)指向新的记录位置。Tuple_3的t_xmin被填入同一个事务号100,t_xmax为0因为是一条新的记录,t_cid为1是因为这个update是事务中的第二条语句,t_ctid被修改为(0,3)代表这条记录是页面中的第二条tuple。
关于Free Space Map
以下我们学习了一个Tuple在增删改场景下的变化情况,这里我们附加说明一下FSM(Free Space Map)。
我们知道每个页面(Page)的顶端是header信息,尾端是Tuple记录,中间则是Free Space或者叫Hole。数据库在判断是否能往一个页面里面写的时候主要就是看这个Free Space够不够用。我们也可以通过扩展来查看每个页面的Free Space使用情况。
testdb=# CREATE EXTENSION pg_freespacemap;
CREATE EXTENSION
testdb=# SELECT *, round(100 * avail/8192 ,2) as "freespace ratio"
FROM pg_freespace('accounts');
blkno | avail | freespace ratio
-------+-------+-----------------
0 | 7904 | 96.00
1 | 7520 | 91.00
2 | 7136 | 87.00
3 | 7136 | 87.00
4 | 7136 | 87.00
5 | 7136 | 87.00