大家好,我是会飞的鱼。
作为一个数据库领域的新人,我将学习PostgreSQL数据库的内核,计划将其中的知识进行整理,先阐述原理,后介绍代码中的实现。目前打算从存储引擎开始学起。
好,废话不多说,我们先开始介绍缓存区的设计。
1. buffer区的基本介绍
数据会在磁盘上进行存储,操作系统会以页的形式进行管理。当我们修改数据,我们需要将这一页从磁盘上读上来,放在内存中,从而进行对应的修改。为了更好的区分概念,页在磁盘中称之为block,在内存中称之为buffer。
如图1所示,磁盘中存了许多文件,每个文件长度不一,按照page进行大小管理(page一般为4K大小)。页面从磁盘加载到内存中的缓存池。当节点又一次还要查看同一个block的内容,我们可以在内存中找到它,无需再从磁盘加载,减少IO时间。
缓存区的大小是有限制的,当缓存区的buffer不够时,我们需要选出一个buffer进行淘汰,在页面淘汰前,如果页面发生修改,页面需要先刷到磁盘,即写入到磁盘中的对应位置。但页面刷到此盘后,这个buffer就可以存储其他页面。
对于同一个页面编号,例如 (file1-page1),存在磁盘中block,也存在buffer。当buffer发生修改,我们将buffer设置为脏页,这一过程称之为置脏。当页面变成脏页后,我们会将