掘金小册阅读笔记
目录
1.innodb记录
1.1 数据页
mysql有引擎比如InnoDB
、MyISAM
、Memory(什么时候选取场景)
InnoDB
采取的方式是:将数据划分为若干个页,以页作为磁盘和内存之间交互的基本单位,InnoDB中页的大小一般为 16 KB。
在一般情况下,一次最少从磁盘中读取16KB的内容到内存中,一次最少把内存中的16KB内容刷新到磁盘中。
以16KB的内存页作为单位。
1.2 行格式
设计InnoDB
存储引擎设计了4种不同类型的行格式
,分别是Compact
、Redundant
、Dynamic
和Compressed
行格式
指定行格式的语法
默认都是compact
我们可以在创建或修改表的语句中指定行格式
:
CREATE TABLE 表名 (列的信息) ROW_FORMAT=行格式名称
ALTER TABLE 表名 ROW_FORMAT=行格式名称
比如:
CREATE TABLE `demo` (
`id` int(11) NOT NULL AUTO_INCREMENT,
`type` varchar(5) CHARACTER SET utf8 COLLATE utf8_general_ci NULL DEFAULT NULL,
`url` varchar(255) CHARACTER SET utf8 COLLATE utf8_general_ci NULL DEFAULT NULL,
PRIMARY KEY (`id`) USING BTREE
) ENGINE = InnoDB AUTO_INCREMENT = 1 CHARACTER SET = utf8 COLLATE = utf8_general_ci ROW_FORMAT = Compact;
COMPACT行的格式?
基本上数据页也好,行格式也好,都是有额外信息和记录的真实信息的:
变长字段长度列表
变长的数据类型,varchar,VARBINARY(M)
、各种TEXT
类型,各种BLOB,这些都是变长类型。
因为他们存储多少字节数据是不确定的,所以存储数据的时候,得把他们占用的字节数存起来。
所以这些变长字段占用的存储空间分为两部分:
- 真正的数据内容
- 占用的字节数
在Compact
行格式中,把所有变长字段的真实数据占用的字节长度都存放在记录的开头部位,从而形成一个变长字段长度列表,各变长字段数据占用的字节数按照列的顺序逆序存放,我们再次强调一遍,是逆序存放!
也就是列的顺序是c1 c2 c3 长度为03 02 01 的话,逆序存就是010203存在记录的额外信息里面。
变长字段长度列表中只存储值为 非NULL 的列内容占用的长度,值为 NULL 的列的长度是不储存的 。
并不是所有记录都有这个 变长字段长度列表 部分,比方说表中所有的列都不是变长的数据类型的话,这一部分就不需要有。
NULL值列表
我们知道表中的某些列可能存储NULL
值,如果把这些NULL
值都放到记录的真实数据
中存储会很占地方,所以Compact
行格式把这些值为NULL
的列统一管理起来,存储到NULL
值列表中
那么就有个问题,数据库的列如果是空的列,为空好还是设置为空白字符串呢?NULL好。
二进制位按照列的顺序逆序排列,所以第一个列和最后一个二进制位对应。
MySQL
规定NULL值列表
必须用整数个字节的位表示,如果使用的二进制位个数不是整数个字节,则在字节的高位补0
。
记录头信息
它是由固定的5
个字节组成。5
个字节也就是40
个二进制位,不同的位代表不同的意思,如图:
MYSQL记录头信息,这个跟数据页的头信息结构很像。
这些二进制位代表的详细信息如下表:
名称 | 大小(单位:bit) | 描述 |
---|---|---|
预留位1 | 1 | 没有使用 |
预留位2 | 1 | 没有使用 |
delete_mask | 1 | 标记该记录是否被删除 |
min_rec_mask | 1 | B+树的每层非叶子节点中的最小记录都会添加该标记 |
n_owned | 4 | 表示当前记录拥有的记录数 |
heap_no | 13 | 表示当前记录在记录堆的位置信息 |
record_type | 3 | 表示当前记录的类型,0 表示普通记录,1 表示B+树非叶子节点记录,2 表示最小记录,3 表示最大记录 |
next_record | 16 | 表示下一条记录的相对位置 |
记录的真实数据
mysql会给每个记录添加一些隐藏列,
具体的列如下:
列名 | 是否必须 | 占用空间 | 描述 |
---|---|---|---|
row_id | 否 | 6 字节 | 行ID,唯一标识一条记录 |
transaction_id | 是 | 6 字节 | 事务ID |
roll_pointer | 是 | 7 字节 | 回滚指针 |
实际上这几个列的真正名称其实是:DB_ROW_ID、DB_TRX_ID、DB_ROLL_PTR,为了美观。
对主键的生成策略:优先使用用户自定义主键作为主键,如果用户没有定义主键,则选取一个Unique
键作为主键,如果表中连Unique
键都没有定义的话,则InnoDB
会为表默认添加一个名为row_id
的隐藏列作为主键。所以我们从上表中可以看出:InnoDB存储引擎会为每条记录都添加 transaction_id 和 roll_pointer 这两个列,但是 row_id 是可选的(在没有自定义主键以及Unique键的情况下才会添加该列)。这些隐藏列的值不用我们操心,InnoDB
存储引擎会自己帮我们生成的。
如果数据为null,不会冗余存储,可以节省空间。
对于char比较有意思的点:
char(10) 不一定不被加入到变长字段长度列表。因为对于ascii字符,是定唱的,一个字符使用一个字节。
但是对于GBK 表示一个字符用1-2个字节 UTF8标识1-3个字节,那么它所在列的长度也会被存储到边长字段列表中。
2. 小知识
行溢出的临界点
那发生行溢出
的临界点是什么呢?也就是说在列存储多少字节的数据时就会发生行溢出
?不用记下来。
MySQL
中规定一个页中至少存放两行记录,这个规定造成的影响。
-
每个页除了存放我们的记录以外,也需要存储一些额外的信息,乱七八糟的额外信息加起来需要
132
个字节的空间(现在只要知道这个数字就好了),其他的空间都可以被用来存储记录。 -
每个记录需要的额外信息是
27
字节。这27个字节包括下边这些部分:
- 2个字节用于存储真实数据的长度
- 1个字节用于存储列是否是NULL值
- 5个字节大小的头信息
- 6个字节的
row_id
列 - 6个字节的
transaction_id
列 - 7个字节的
roll_pointer
列
你不用关注这个临界点是什么,只要知道如果我们一条记录的某个列中存储的数据占用的字节数非常多时,该列就可能成为溢出列
。
3. Dynamic和Compressed行格式
下边要介绍另外两个行格式,Dynamic
和Compressed
行格式,现在使用的MySQL
版本是5.7
,它的默认行格式就是Dynamic
,这俩行格式和Compact
行格式挺像,只不过在处理行溢出
数据时有点儿分歧,它们不会在记录的真实数据处存储字段真实数据的前768
个字节,而是把所有的字节都存储到其他页面中,只在记录的真实数据处存储其他页面的地址,就像这样:
Compressed
行格式和Dynamic
不同的一点是,Compressed
行格式会采用压缩算法对页面进行压缩,以节省空间。
Redundant是为兼容之前版本而保留
阅读笔记:MySQL 是怎样运行的:从根儿上理解 MySQL 第五节