综述
mysql也类似oracle(tablespace,segment,extent,page)
innodb的物理文件包括系统表空间文件ibdata,用户表空间文件ibd,日志文件ib_logfile,临时表空间文件ibtmp,undo独立表空间等。
https://www.cndba.cn/Supreme_Aaron/article/3521
系统表空间是innodb最重要的文件,它记录包括metadata,transaction,ibuf信息,doublewrite、lsn等关键信息。
用户表空间文件通常分为两类,一类是当innodb_file_per_table打开时,一个用户表空间对应一个文件,另外一种则是5.7版本引入的所谓General Tablespace,在满足一定约束条件下,可以将多个表创建到同一个文件中。
日志文件主要用于记录redo log。innodb在所有数据变更前,先写redo日志。为保证redo日志原子写入,日志通常以512字节的block单位写入。但由于现代文件系统升级,block_size通常设置到了4k,因此innodb也提供了一个选项支持redo日志以4k为单位写入。
临时表空间文件用于存储所有非压缩的临时表,第1~32个临时表专用的回滚段也存放在该文件中。由于临时表的本身属性,该文件在重启时会重新创建。
undo独立表空间是innodb的一个可选项,由innodb_undo_tablespaces配置。默认情况下,该值为0,即undo数据是存储在ibdata中。innodb_undo_tablespaces 设置为非0,可使得undo 回滚段分配到不同的文件中,目前开启undo tablespace 只能在install阶段进行。
https://www.cndba.cn/Supreme_Aaron/article/3521
上述文件除日志文件外,都具有较为统一的物理结构。所有物理文件由页(page 或 block)构成,在未被压缩情况下,一个页的大小为UNIV_PAGE_SIZE(16384,16K)。不同用途的页具有相同格式的页头(38)和页尾(8),其中记录了页面校验值,页面编号,表空间编号,LSN等信息。
从5.7源码分析page type
源码在fil0fil.h这个文件中
checksum FIL_PAGE_SPACE_OR_CHKSUM 长度为4 偏移为0,上面的英文注释也简单4.0之前怎么怎么的 之后用来存储了 本页面的checksum,目的为了用来检测page是不是完整。
offset FIL_PAGE_OFFSET 4,4 用来表示在当面tablespace中的page num
previous page FIL_PAGE_PREV 4,8用来存当前叶子节点的上一个页面,如果是最左边的话 记为fil_null.
next page 4,12记录当前叶子节点的上一个页面,如是最右边,这是是fil_null
lsn for last modification 8,16 用来存当前当前page最后一次被修改,对应的日志的lsn
page type 2,24 用来存当前页面是什么类型 index还是data
flush lsn 8,26用来存当前innodb最大被flush到的lsn。当db正常关闭,或者check point都会把最新的flush的日志lsn记录过来,保证日志被删除或者修改大小,可以找到一个正确的lsn
space id 4,34用来标记page属于哪个表空间。
可用空间
old-style checksum 页尾检验值(4)
low 32bit of lsn lsn的低4字节(4)https://www.cndba.cn/Supreme_Aaron/article/3521https://www.cndba.cn/Supreme_Aaron/article/3521https://www.cndba.cn/Supreme_Aaron/article/3521
https://www.cndba.cn/Supreme_Aaron/article/3521
文件物理结构
innodb的每个数据文件都归属一个tablespace,不同的tablespace使用一个唯一的space id。系统表空间ibdata包括不同的ibdata*,这些逻辑上是相连的属于space_id=0的表空间
一般情况下extent由64个page构成,表空间可以理解为一个个相连的extent构成。
https://www.cndba.cn/Supreme_Aaron/article/3521
https://www.cndba.cn/Supreme_Aaron/article/3521
索引index
innodb使用的索引应该是b+tree
ibd文件中构建起数据结构的是index-b+tree,每个表中的index对应一个b+tree。
聚簇索引(pk)对应b+tree上的叶子节点,记录了全部列的数据。表中没有PK时,会给这表生成一个rowid,基于这列构建b+tree。如果存在二级索引也就是自定义了index,那么b+tree的叶子节点存储了键值加上聚簇索引的键值。
每个b+tree用两个segment来管理page,一个管叶子节点,另一个就管理非叶子节点。
对一个表进行DML的时候,首先从ibdata的第8页FSP_DICT_HDR_PAGE_NO中load该表的metadata,从SYS_INDEXES中获得这个index对应的root page no,从而进行数据修改。https://www.cndba.cn/Supreme_Aaron/article/3521
总结
篇幅是在太多了,讲的话要写很多东西,包括源码的理解,实在会很无聊。
研究mysql(所有开源的东西,力所能及的范围下)还是要看源码,看懂了源码也就能解决大部分问题了。
https://www.cndba.cn/Supreme_Aaron/article/3521
版权声明:本文为博主原创文章,未经博主允许不得转载。