一:背景
1.讲故事
最近给一位朋友做 SQL 慢语句
优化,花了些时间调优,遗憾的是 SQLSERVER 非源码公开,玩起来不是那么顺利,不过从这次经历中我觉得明年的一个重大任务就是好好研究一下它,争取在 SQLSERVER 性能优化上做一些成绩,哈哈! 个人觉得要想深入研究 SQLSERVER,得从它的存储引擎说起,说到存储引擎又得从核心的 数据页
说起,毕竟 mdf 就是由 数据页
拼出来的,当然理解的不对大家可以指出来。
二:理解数据页
1. 什么是数据页
一般来说,对大块资源或者数据进行高效管理都会按照一定粒度来划分的,比如说 Windows 对内存的管理就是按照 内存页 (4k)
来进行划分,言外之意就是 SQLSERVER 对 mdf 的管理也是按照 数据页 (8k)
来划分的,画个图大概就是这样的。
那如何来验证这个结论呢?刚才也说了数据都在数据页上,我们弄点数据然后在指定的数据页上提取出来就好了,这里用的是 SQLServer 2019
。
CREATE DATABASE MyTestDB
GO
USE MyTestDB;
GO
IF OBJECT_ID('person') IS NOT NULL
DROP TABLE person;
CREATE TABLE person
(
id INT IDENTITY,
name CHAR(5)
);
GO
INSERT INTO dbo.person( name ) VALUES ('john');
INSERT INTO dbo.person( name ) VALUES ('mary');
2. 寻找数据所在的数据页
刚才图中也说了 mdf 是由无数个 数据页
拼出来的,那如何找到 person 表所在的数据页呢?其实微软提供了一个 dbcc ind
命令可以帮我们洞察出来,同时记得开始 3604
标记,让输出显示在控制台上,而不是默认的错误日志中,这个命令具体怎么用,大家可以查看官方文档。
DBCC TRACEON(3604)
DBCC IND(MyTestDB,person, -1)
从输出看有两条记录,第一个是 PagePID=41
是 IAM 数据页,而PagePID=280
就是我们 person 表记录所在的数据页编号,也就是说 person 表的记录在 mdf 文件偏移为 0n280 * 0n8192
的位置,用 WinDbg 算一下就是 0x00230000
。
0:090> ? 0n280 * 0n8192
Evaluate expression: 2293760 = 00000000`00230000
那是不是呢?可以用 WinHex 验证一下,为了不出现进程占用,先把 MyTestDB
下线了,最后记得再上线即可。
ALTER DATABASE MyTestDB SET OFFLINE
ALTER DATABASE MyTestDB SET ONLINE