第二次编辑
学习InnoDB的必经之路
目前为止,我已经使用InnoDB十年左右,自认为对它足够了解能让我在多数时候运用自如。然而,为了提升性能,我还得提升对MySQL的理解。InnoDB对其内部的数据结构描述的文档让人费解。通过阅读源代码的方式提升我的理解成立唯一的途径。
然而我很快发现仅仅阅读源码,理解它的结构和用法(尤其是它们的关系)实在太复杂了,根本记不住。此外,希望你仅通过阅读方式就能正确的理解InnoDB数据结构(至于我,一路上有太多的错误理解)。
长期以来,我用来理解复杂且文档匮乏的软件的做法分为以下三个步骤。
- 阅读已有的代码和文档,直到初步的了解。通常这个时候会产生非常严重的理解偏差(原文:serious misunderstandings or incorrect factorization)。
- 写下我自己的实现,即便是非常基础或者零碎的实现,并且最好是用一种完全不同的语言(这样可以避免有复制粘贴任何代码)。然后用这个代码和源码相比,哪里有出入并更正,通过这样的方式来修正理解上的偏差。
- 基于最新的理解创建新的文档和图解,在必要时重构代码(这时通常会发现一些不正确的理解(原文:the act of reviewing everything in order to document it often reveals incorrect factorizations))。基于重构代码时的产生的最新理解更正文档,重复直到正确为止。
实现InnoDB的数据结构
我启动了innodb_ruby项目,该项目是用Ruby语言实现的InnoDB数据结构。我之所以选择Ruby语言是因为他非常灵活、成型非常快速,并且它是我现在最喜欢的语言。当然你可以用任何语言实现它,整个过程中性能其实不是真正的问题,调试才是(尽管我不想让它运行得太慢导致我测试迭代得心烦意乱)。
在这个项目开始后,我在几分钟内对16KiB大小的page页上的FIL header(InnoDB 上所有page types共有的)有了非常基本的解析。又过了几个小时,我实现了INDEX page header现在就能够回答像”每个索引页有多少条记录?“这样相当基本的问题。
按我所需要的顺序继续实现了每个其他关键的数据结构,每个数据结构都能让我更深入的理解InnoDB存储层次。Davi也参与进来写了些棘手的内容,例如处理记录中可变参数字段类型(原文:variable-width field types)。
现在我们有了一个基本可以运行的InnoDB主体数据结构的只读实现。
记录InnoDB的数据结构
当揭开足够多的InnoDB内部结构,就可以开始着手制作相关图解,我为所有主要的InnoDB磁盘数据结构画出清晰且便于理解的图解。然后启动了innodb_diagrams项目,并且选择用OmniGraffle来画图。
大多数的磁盘空间文件(ibdataX和* .iba文件)存储格式被记录在Barracuda格式表中(用 COMPACT 记录)。编写Antelope格式(用REDUNDANT记录)和InnoDB的压缩表相应的文档还有很多事要做。日志格式文件的文档也要写。
利用代码和图解
现在,我们有了对交互有用的一些demo和图解,这些将会是非常有支撑作用的材料。我打算写几篇关于InnoDB数据结构有趣且没有记录过的文章。把你的眼睛放过来(请留意)。