4.4 SQL操作对页面的影响
4.4.1 DML操作对于页面存储格式的影响
页面从一个新的状态,到放入数据,数据经过DML操作,页面的数据发生变化,在结果vacuum清理数据后,页面数据又变为一个整齐状态。如下从四个角度来说DML操作对于数据页面的影响。
一 空页面
二 数据插入后页面的状态
如果是往一个表上插入数据,其插入方式,如上图,从页尾开始存放第一条记录,然后是第二条、直至本页空间不够。
如果是不同的表,PG的处理方式,是不同表由不同文件组成,不同文件的块(8k)映射不同的buf,则往不同的表上插入数据的时候,对应的页一定不同。
三 数据删除后页面的状态
元组(tuple)的删除,则更为简单,对于页面来讲,当找到tuple所在的页,直接为tuple的一个“信息位”(cmax)置新的值即可。这说明,PG删除元组的操作,不是真正从页面上把元组去掉,也不是如Oracle,把旧信息置于回滚段,而是直接在元组头上标识一个“删除标志”。此标志,是一个数值型的一个值,表示一个被删除的元组是否被其他“事务”(活动着的连接)看到。[1]
以上描述,可以通过查看heap_delete函数的如下调用了解:
HeapTupleHeaderAdjustCmax(tp.t_data, &cid,&iscombo);
四 数据更新后页面的状态
元组更新,是删除操作和插入操作的组合。这点,可以从heap_update函数代码得知。
五 扩展知识
以上四条,是用户表、用户数据在内存(数据页)中的数据增删改和初始新页面时的状态,系统表和系统表的数据,也是以tuple格式存放的,一样的存储方式。
本节没有就索引页面的存储格式展开讨论。
如下是相关函数的一部分调用关系:
PageHasFreeLinePointers
PageAddItem
RelationPutHeapTuple
heap_insert
CopyFrom
intorel_receive
simple_heap_insert
ExecInsert
ATRewriteTable
toast_save_datum
heap_update
PageGetHeapFreeSpace
[1] PG的MVCC技术,其中,涉及存储层的,有个名词叫做“元组可见性”,是原来表明哪些事务可以读到某个元组、哪些事务不能读到某个元组。
“元组可见性”可以通过HeapTupleSatisfiesVisibility、HeapTupleSatisfiesUpdate等调用关系追踪。