【MySQL系列7】InnoDB引擎存储结构及InnoDB特性Change Buffer和Double Writer分析(1)

最新推荐文章于 2024-06-12 11:59:04 发布

2401_84584375

最新推荐文章于 2024-06-12 11:59:04 发布

阅读量307

点赞数 5

分类专栏：程序员文章标签： java 面试学习

本文链接：https://blog.csdn.net/2401_84584375/article/details/138747849

版权

程序员专栏收录该内容

131 篇文章 0 订阅

订阅专栏

最后

分享一套我整理的面试干货，这份文档结合了我多年的面试官经验，站在面试官的角度来告诉你，面试官提的那些问题他最想听到你给他的回答是什么，分享出来帮助那些对前途感到迷茫的朋友。

面试经验技巧篇

经验技巧1 如何巧妙地回答面试官的问题
经验技巧2 如何回答技术性的问题
经验技巧3 如何回答非技术性问题
经验技巧4 如何回答快速估算类问题
经验技巧5 如何回答算法设计问题
经验技巧6 如何回答系统设计题
经验技巧7 如何解决求职中的时间冲突问题
经验技巧8 如果面试问题曾经遇见过，是否要告知面试官
经验技巧9 在被企业拒绝后是否可以再申请
经验技巧10 如何应对自己不会回答的问题
经验技巧11 如何应对面试官的“激将法”语言
经验技巧12 如何处理与面试官持不同观点这个问题
经验技巧13 什么是职场暗语

面试真题篇

真题详解1 某知名互联网下载服务提供商软件工程师笔试题
真题详解2 某知名社交平台软件工程师笔试题
真题详解3 某知名安全软件服务提供商软件工程师笔试题
真题详解4 某知名互联网金融企业软件工程师笔试题
真题详解5 某知名搜索引擎提供商软件工程师笔试题
真题详解6 某初创公司软件工程师笔试题
真题详解7 某知名游戏软件开发公司软件工程师笔试题
真题详解8 某知名电子商务公司软件工程师笔试题
真题详解9 某顶级生活消费类网站软件工程师笔试题
真题详解10 某知名门户网站软件工程师笔试题
真题详解11 某知名互联网金融企业软件工程师笔试题
真题详解12 国内某知名网络设备提供商软件工程师笔试题
真题详解13 国内某顶级手机制造商软件工程师笔试题
真题详解14 某顶级大数据综合服务提供商软件工程师笔试题
真题详解15 某著名社交类上市公司软件工程师笔试题
真题详解16 某知名互联网公司软件工程师笔试题
真题详解17 某知名网络安全公司校园招聘技术类笔试题
真题详解18 某知名互联网游戏公司校园招聘运维开发岗笔试题

资料整理不易，点个关注再走吧

本文已被CODING开源项目：【一线大厂Java面试题解析+核心总结学习笔记+最新讲解视频+实战项目源码】收录

需要这份系统化的资料的朋友，可以点击这里获取

MySQL系列文章汇总

========================================================================

| MySQL系列文章 | 飞机票 |

| — | — |

| MySQL索引为何选择B+树 | 登机入口 |

| 深入分析MySQL索引 | 登机入口 |

| MySQL执行计划EXPLAIN详细说明和举例 | 登机入口 |

| MySQL中事务以及MVCC的实现原理 | 登机入口 |

| 深入分析MySQL中锁并详解幻读问题 | 登机入口 |

| select语句和update语句的执行流程 | 登机入口 |

| InnoDB引擎存储结构及Change Buffer和Double Writer分析 | 登机入口 |

| InnoDB中四种行格式分析及对varchar和char的限制 | 登机入口 |

前言

===============================================================

上一篇我们分析了MySQL中InnoDB引擎执行一条select语句和一条update语句的流程，其中涉及到了redo log,bin log和Buffer Pool等知识，今天就让我们深入InnoDB的存储结构看看这些文件或缓存到底是如何存储及工作的。

本文基于MySQL5.7版本。

InnoDB总体结构

=======================================================================

首先我们来看官网的一张图(图片来源于MySQL官网)：

在这里插入图片描述

从上图中可以看出其主要分为两部分结构，一部分为内存中的结构(上图左边)，一部分为磁盘中的结构(上图右边)

内存结构

InnoDB内存中的结构主要分为：Buffer Pool,Change Buffer和Log Buffer三部分。

Buffer Pool

Buffer Pool是InnoDB缓存表和索引的一块主内存区域，Buffer Pool允许直接从内存中处理经常使用的数据，从而加快处理速度，带来一定的性能提升。

但是缓存总有放满的时候，当缓存满了新来的数据怎么处理呢？Bufer Pool中采用的是LRU(least recently used，最近最少使用)算法，LRU列表中最前面存的是高频使用页，尾部放的是最少使用的页。当有新数据过来而缓存满了就会覆盖尾部数据。

假如我们有一条查询语句非常大，返回的结果集直接就超过了Buffer Pool的大小，而这种语句使用场景又是极少的，可能查询这一次之后很久不会查询，而这一次就将缓存占满了，将一些热点数据全部覆盖了。为了避免这种情况发生，InnoDB对传统的LRU算法又做了改进，将LRU列表分拆分为2个，如下图(图片来源于MySQL官网)：

在这里插入图片描述

该算法在new子列表中保留大量页面(5/8),old子列表包含较少使用的页面(3/8);old子列表中数据可能会被覆盖，该算法具体操作如下：

3/8的Buffer Pool空间用于old子列表
列表的中点是new子列表的尾部与old子列表的头部之间的边界
当InnoDB将一个页面读入缓冲池时，它首先将它插入到中间点(old子列表的头)。读取的页面是由用户发起的操作(比如SQL查询)或InnoDB自动执行的预读操作
访问old子列表中的页面使其“young”，并将其移动到new子列表的头部。如果读取的页是由用户发起的操作，那么就会立即进行第一次访问，并使页面处于young状态；如果读取的页是由预读发起的操作，那么第一次访问不会立即发生，而且可能直到覆盖都不会发生。
操作数据时，Buffer Pool中未被访问的页会逐渐移到尾部，最终会被覆盖。

默认情况下，查询读取的页面会立即移动到新的子列表中，这意味着它们在缓冲池中停留的时间更长。

Change Buffer

Change Buffer是一种特殊的缓存结构，用来缓存不在Buffer Pool中的辅助索引页，支持insert, update,delete(DML)操作的缓存(注意，这个在MySQL5.5之前叫做Insert Buffer，仅支持insert操作的缓存)。当这些数据页被其他查询加载到Buffer Pool后，则会将数据进行merge到索引数据叶中。

在这里插入图片描述

InnoDB在进行DML操作非聚集非唯一索引时，会先判断要操作的数据页是不是在Buffer Pool中，如果不在就会先放到Change Buffer进行操作，然后再以一定的频率将数据和辅助索引数据页进行merge。这时候通常都能将多个操作合并到一次操作，减少了IO操作，尤其是辅助索引的操作大部分都是IO操作，可以大大提高DML性能。

如果Change Buffer中存储了大量的数据，那么可能merge操作会需要消耗大量时间。

为什么Change Buffer只能针对非聚集非唯一索引

因为如果是主键索引或者唯一索引，需要判断数据是否唯一，这时候就需要去索引页中加载数据判断而不能仅仅只操作缓存。

Change Buffer什么时候会merge

总体来说，Change Buffer的merge操作发生在以下三种情况：

辅助索引页被读取到Buffer Pool时。

当执行一条select语句时，会去检查当前数据页是否在Change Buffer中，如果在，就会把数据merge到索引页

该辅助索引页没有可用空间时。

InnoDB内部会检测辅助索引页是否还有可用空间(至少有1/32页)，如果检测到当前操作之后，当前索引页剩余空间不足1/32时，会进行一次强制merge操作

后台线程Master Thread定时merge。

Master Thread是一个非常核心的后台线程，主要负责将缓冲池中的数据异步刷新到磁盘，保证数据的一致性。

Adaptive Hash Index

Adaptive Hash Index，自适应哈希索引。InnoDB引擎会监控对索引页的查询，如果发现建立哈希索引可以带来性能上的提升，就会建立哈希索引，这种称之为自适应哈希索引，InnoDB引擎不支持手动创建哈希索引。

Log Buffer

日志缓冲区是存储要写入磁盘日志文件的一块数据内存区域，大小由变量innodb_log_buffer_size 控制，默认大小为16MB(5.6版本是8MB)：

SHOW VARIABLES LIKE ‘innodb_log_buffer_size’;-- global级别，无session级别

上文讲述update语句更新流程一文中，我们只提到了Buffer Pool用来代替缓存区，通过本文对内存结构的分析，实际上Buffer Pool中严格来说还有Change Buffer，Log Buffer和Adaptive Hash Index三个部分，DML操作会缓存在Change Buffer区域，而写redo log之前会先写入Log Buffer，所以Log Buffer又可以称之为redo Log Buffer。

Log Buffer什么时候写入redo log

一个大的Log Buffer空间大允许运行大型事务，而无需在事务提交之前将redo log数据写入磁盘。Log Buffer中的数据会定期刷新到磁盘，那么Log Buffer的数据又是如何写入磁盘的呢？Log Buffer数据flush到磁盘有三种方式，通过变量innodb_flush_log_at_trx_commit 控制，默认为1。

|value|描述|

| 值 | 含义 |

| — | — |

| 0(延迟写) | Mast Thread每秒1次写入redo log，并同步刷新到磁盘。该模式下，在事务提交的时候，不会主动触发写入磁盘的操作，未刷新日志的事务可能会在崩溃中丢失 |

| 1(实时写,实时刷) | 实时写入redo log，并实时刷新到磁盘，为了完整的保证事务的ACID特性，默认设置为1是必要的 |

| 2(实时写，延时刷) | 每个事务提交之后写入redo log，并每秒刷新一次磁盘。未刷新日志的事务可能会在崩溃中丢失 |

当设置为0时，由于数据还在内存，所以崩溃后数据基本会被丢失
当设置为2时，由于数据已经实时写到redo log了，如果磁盘文件没有被损坏，还是可以恢复的

另外，Mast Thread默认1s进行一次刷盘操作，这个可以通过变量innodb_flush_log_at_timeout控制，默认1s。

SHOW VARIABLES LIKE ‘innodb_flush_log_at_timeout’;-- global级别，无session级别

磁盘结构

InnoDB引擎的磁盘结构，从大的方面来说可以分为Tablespace和redo log两部分

Tablespace

Tablespace可以分为4大类，分别是：System Tablespace，File-Per-Table Tablespaces，General Tablespaces，Undo Tablespaces

System Tablespace

系统表空间中包括了 InnoDB data dictionary,doublewrite buffer, change buffer, undo logs

4个部分，默认情况下InnoDB存储引擎有一个共享表空间ibdata1,如果我们创建表没有指定表空间，则表和索引数据也会存储在这个文件当中，可以通过一个变量控制(后面会介绍)。

ibdata1文件默认大小为12MB，可以通过变量innodb_data_file_path来控制，改变其大小的最好方式就是设置为自动扩展。

innodb_data_file_path=ibdata1:12M:autoextend

上面表示默认表空间ibdata1大小为12MB，支持自动扩展大小。

当我们的文件达到一定的大小之后，比如达到了998MB，我们就可以另外开启一个表空间文件：

innodb_data_home_dir=

innodb_data_file_path=/ibdata/ibdata1:988M;/disk2/ibdata2:50M:autoextend

关于上面的设置有3点需要注意：

innodb_data_home_dir如果不设置的话，那么就默认所有的表空间文件都在datadir目录下，而我们上面指定了2个不同路径，所以需要把innodb_data_home_dir设为空
autoextend这个属性，只能放在最后一个文件
指定新的表空间文件名的时候，不能和现有表空间文件名一致，否则启动MySQL时会报错

当然，表空间可以增大，自然也可以减少，但是一般我们都不会去设置减少，而且减少表空间也相对麻烦，在这里就不展开叙述了。

InnoDB Data Dictionary

InnoDB数据字典由内部系统表组成，其中包含用于跟踪对象(如表、索引和表列)的元数据。元数据在物理上位于InnoDB系统表空间中。由于历史原因，数据字典元数据在某种程度上与存储在InnoDB表元数据文件(.frm文件)中的信息重叠。

Doublewrite Buffer

Doublewrite Buffer，双写缓冲区，这个是InnoDB为了实现double write而设置的一块缓冲区，double write和上面的change buffer一个确保了可靠性，一个确保了性能的提升，是InnoDB中非常重要的两大特性。

我们先来看下面一张图：

在这里插入图片描述

InnoDB默认页的大小是16KB，而操作系统是4KB，如果存储引擎正在写入页的数据到磁盘时发生了宕机，可能出现页只写了一部分的情况，比如只写了 4K，这种情况叫做部分写失效（partial page write），可能会导致数据丢失。

可能有人会说，可以通过redo log来恢复，但是注意，redo log恢复数据有一个前提，那就是页没有损坏，如果页本身已经被损坏了，那么是没办法恢复的，所以为了确保万无一失，我们需要先保存一个页的副本，如果出现了上面的极端情况，可以用页的副本结合redo log来恢复数据，这就是double write技术。

double write也是由两部分组成，一部分是内存中的double write buffer,大小为2MB，另一部分是物理磁盘上的共享表空间中的连续128个页，大小也是2MB，写入流程如下图(图片来源于《MySQL技术内幕 InnoDB存储引擎》)：

在这里插入图片描述

double write机制会使得数据写入两次磁盘，但是其并不需要两倍的I/O开销或两倍的I/O操作。通过对操作系统的单个fsync()调用，数据以一个大的顺序块的形式写入到双写入缓冲区。

在大多数情况下默认启用了doublewrite缓冲区。要禁用doublewrite缓冲区，可通过将变量innodb_doublewrite设置为0即可。

Undo Logs

undo log记录了单个事务对聚集索引数据记录的最近一次修改信息，用来保证在必要时实现回滚，如果另一个事务需要在一致性读操作中查看原始数据，则从undo日志记录中检索未修改的数据，也就是说MVCC机制也依赖于undo log来实现。

与redo log不同的是，undo log存储的是逻辑日志，undo log分为两种类型：

insert undo log

由insert操作产生，由于插入数据操作只对当前事务可见，所以事务提交之后可以直接删除

update undo log

由update和delete操作产生，由于要实现MVCC多版本并发控制，故而update undo log在事务提交之后不能直接删除，而是最后由后台线程(Purge Thread或者Master Thread)来最终判断是否可以删除

注意，update undo log最终到底由哪个线程来执行purge操作，可以通过配置文件来配置实现,：

[mysqld]

innodb_purge_thread=1

最后总结我的面试经验

2021年的金三银四一眨眼就到了，对于很多人来说是跳槽的好机会，大厂面试远没有我们想的那么困难，摆好心态，做好准备，你也可以的。

另外，面试中遇到不会的问题不妨尝试讲讲自己的思路，因为有些问题不是考察我们的编程能力，而是逻辑思维表达能力；最后平时要进行自我分析与评价，做好职业规划，不断摸索，提高自己的编程能力和抽象思维能力。

BAT面试经验

实战系列：Spring全家桶+Redis等

其他相关的电子书：源码+调优

面试真题：

本文已被CODING开源项目：【一线大厂Java面试题解析+核心总结学习笔记+最新讲解视频+实战项目源码】收录

需要这份系统化的资料的朋友，可以点击这里获取

列：Spring全家桶+Redis等**

[外链图片转存中…(img-btmUvLKI-1715480515144)]

其他相关的电子书：源码+调优

[外链图片转存中…(img-X7kWsKYN-1715480515144)]

面试真题：

[外链图片转存中…(img-xc10nF83-1715480515144)]

[外链图片转存中…(img-YoDOW1sI-1715480515144)]

本文已被CODING开源项目：【一线大厂Java面试题解析+核心总结学习笔记+最新讲解视频+实战项目源码】收录

需要这份系统化的资料的朋友，可以点击这里获取

2401_84584375

关注

5
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
【MySQL系列7】InnoDB引擎存储结构及InnoDB特性Change Buffer和Double Writer分析(1)

2021年的金三银四一眨眼就到了，对于很多人来说是跳槽的好机会，大厂面试远没有我们想的那么困难，摆好心态，做好准备，你也可以的。另外，面试中遇到不会的问题不妨尝试讲讲自己的思路，因为有些问题不是考察我们的编程能力，而是逻辑思维表达能力；最后平时要进行自我分析与评价，做好职业规划，不断摸索，提高自己的编程能力和抽象思维能力。BAT面试经验实战系列：Spring全家桶+Redis等其他相关的电子书：源码+调优面试真题：本文已被。
复制链接

扫一扫