《Pro SQL Server Internals》部分翻译（P36-P45）

最新推荐文章于 2019-05-01 20:03:10 发布

weixin_33853794

最新推荐文章于 2019-05-01 20:03:10 发布

阅读量106

点赞数

原文链接：http://www.cnblogs.com/spiderwang/p/10057130.html

版权

本文选自《Pro SQL Server Internals》

作者: Dmitri Korotkevitch

出版社: Apress

出版年: 2016-12-29

作者简介：Dmitri Korotkevitchis是微软SQL Server MVP和微软认证大师。作为应用程序和数据库开发人员、数据库管理员和数据库架构师，他具有多年使用SQL Server的经验。他专门从事OLTP系统在高负载下的设计、开发和性能调优。Dmitri经常在各种Microsoft和SQL PASS活动上发言，他为世界各地的客户提供SQL Server培训。

原文链接：http://www.doc88.com/p-4042504089228.html

聚簇索引聚簇索

引指示表中数据的物理顺序，该表根据聚簇索引键进行排序。该表只能定义一个聚簇索引。假设您要在堆表上使用数据创建聚簇索引。作为第一步，如图2-5所示，SQL Server会创建另一个数据副本，然后根据群集密钥的值对其进行排序。数据页链接在双链表中，其中每个页面都包含指向链中下一页和上一页的指针。此列表称为索引的叶级，它包含实际的表数据。

第2章表格和索引：内部结构和访问方法

图2-5 聚集的索引结构：叶级 HeapTable = 堆表 clustered index(leaf level actual data)=聚簇索引（精算数据）

■注意页面上的排序顺序由插槽阵列控制。页面上的实际数据未排序。
当叶级别由多个页面组成时，SQL Server开始构建索引的中间级别，如图2-6所示。

intermediate level 中间级； leaf level 叶级

图2-6。聚集的索引结构：中级和叶级
中间级别为每个叶级页面存储一行。它存储两条信息：它引用的页面中的索引键的物理地址和最小值。唯一的例外是第一页上的第一行，其中SQL Server存储NULL而不是最小索引键值。通过这种优化，当您在表中插入具有最低键值的行时，SQL Server不需要更新非叶级行。中间级别的页面也链接到双链表。 SQL Server添加了越来越多的中间级别，直到只包含单个页面的级别。此级别称为根级别，它将成为索引的入口点，如图2-7所示。

第2章■表格和索引：内部结构和访问方法

图2-7。聚簇索引结构：根级别

如您所见，索引始终具有一个叶级别，一个根级别和零个或多个中间级别。唯一的例外是索引数据适合单个页面。在这种情况下，SQL Server不会创建单独的根级页面，索引只包含单个叶级页面。索引中的级别数很大程度上取决于行和索引键的大小。例如，4字节整数列上的索引在中间和根级别上每行需要13个字节。这13个字节由一个2字节的插槽数组条目，一个4字节的索引键值，一个6字节的页面指针和一个1字节的行开销组成，这是足够的，因为索引键不包含变量 - length和NULL列。因此，每行可容纳8,060字节/ 13字节=每页620行。这意味着，使用一个中间级别，您可以存储最多620 * 620 = 384,400个叶级页面的信息。如果数据行大小为200字节，则每个叶级页面可存储40行，索引中最多可存储15,376,000行，只有三个级别。向索引添加另一个中间级别将基本上涵盖所有可能的整数值。

注意在实际生活中，索引碎片会减少这些数字。我们将在第6章中讨论索引碎片。

SQL Server可以以三种不同的方式从索引读取数据。第一个是通过有序扫描。假设我们要运行SELECTNamefromdbo.Customers ORDER BY CustomerId查询。索引的叶级数据已经基于CustomerId列值进行了排序。因此，SQL Server可以扫描索引从第一页到最后一页的叶子级别，并按照存储行的顺序返回这些行。SQL Server从索引的根页开始，然后从那里读取第一行。该行引用具有最小键值的中间页从表中引用。SQLServer读取该页并重复该过程，直到找到叶级上的第一页为止。然后，SQLServer开始逐行读取行，遍历页的链表，直到读取所有行为止。图2-8说明了这一过程。

第2章表和索引：内部结构和访问方法

图2-8。有序索引扫描

前面查询的执行计划显示了具有Ordered属性设置为true的集群索引扫描操作符，如图2-9所示。

图2-9。有序索引扫描执行计划

值得一提的是，触发有序扫描不需要order by子句。有序扫描仅仅意味着SQL Server根据索引键的顺序读取数据。SQL Server可以在两个方向上（向前和向后）浏览索引。但是，您必须记住一个重要方面：SQL Server在反向索引扫描期间不使用并行性。

第2章 ■ 表和索引：内部结构和访问方法

■提示您可以通过检查执行计划中的INDEX SCAN或INDEX SEEK操作符属性来检查扫描方向。但是，请记住，Management Studio不会在执行计划的图形表示中显示这些属性。您需要打开“属性”窗口以通过在执行计划中选择运算符并选择“查看/属性”窗口菜单项或按F4键来查看该属性窗口。

SQL Server的企业版有一个名为merry-go-.scan的优化特性，允许多个任务共享相同的索引扫描。假设您有会话S1，它正在扫描索引。在扫描中间的某个时刻，另一个会话S2运行需要扫描相同索引的查询。通过旋转木马扫描，S2在其当前扫描位置连接S1。SQLServer只读取每个页面一次，将行传递给两个会话。当S1扫描到达索引的结束时，S2从索引的开始开始扫描数据，直到S2扫描开始的点。旋转木马扫描是另一个示例，它说明了为什么您不能依赖于索引键的顺序，以及为什么在需要时应该始终指定ORDER BY子句。排序扫描之后的下一个访问方法称为分配顺序扫描。S QL Server通过IAM页面访问表数据，类似于使用堆表的方式。SELECTNamefromdbo.Customers WITH(NOLOCK)查询和图2-10说明了这种方法。图2-11显示了查询执行计划。

图2-10。分配顺序扫描

第2章 ■ 表和索引：内部结构和访问方法

图2-11。分配顺序扫描执行计划

不幸的是，很难检测SQL Server何时使用分配顺序扫描。尽管执行计划中的Ordered属性显示为false，但它表明SQL Server并不关心行是否按索引键的顺序读取，而不关心使用分配顺序扫描。分配顺序扫描可以更快地扫描大表，尽管它有更高的启动成本。

当表小时，SQLServer不使用此访问方法。另一个重要的考虑因素是数据一致性。SQL Server在具有集群索引的表中不使用转发指针，并且分配顺序扫描可能产生不一致的结果。由于分页导致的数据移动，可以多次跳过或读取行。因此，SQLServer通常避免使用分配顺序扫描。除非它以READ UNCOMMITTED或SERIALIZABLE事务隔离级别读取数据。

■注意我们将在第6章“索引分段”中讨论分页和分段，在第三部分“锁定、阻塞和并发”中讨论锁定和数据一致性。

最后一个索引访问方法称为索引查找。从dbo.Customers WHERE CustomerId BETWEEN 4和7查询的SELECT Name以及图2-12说明了该操作。

图2-12。索引查找

第2章 ■ 表和索引：内部结构和访问方法

为了从表中读取行的范围，SQL Server需要从范围中找到具有最小键值的行，即4。SQL Server从根页面开始，其中第二行引用具有最小键值350的页面。它大于我们正在寻找的键值(4)，并且SQL Server读取由根页面上的第一行引用的中间级数据页(1:170)。

类似地，中间页面将SQL Server引导到第一个叶级页面（1:176）。SQLServer读取然后，它读取CustomerIds等于4和5的行，最后，它从第二页读取剩余的两行。

执行计划如图2-13所示。

图2-13。索引查找执行计划

可以猜到，索引查找比索引扫描更有效，因为SQL Server只处理行和数据页的子集，而不扫描整个表。

从技术上讲，有两种索引查找操作。第一个称为单例查找，有时称为点查找，其中SQL Server查找并返回一行。您可以想到Cuffer-Id= 2谓词在哪里。另一种类型的索引查找操作称为范围扫描，它要求SQL Server查找键的最低值或最高值，并扫描（向前或向后）行集合，直到到达扫描范围的末尾。客户机ID介于4和7之间的谓词导致范围扫描。两种情况都显示为执行计划中的索引查找操作。

正如您所猜到的，范围扫描完全可能迫使SQL Server处理索引中的大量数据页甚至所有数据页。例如，如果将查询更改为使用WHERE CustomerId>0谓词，SQL Server将读取所有行/页，尽管在执行计划中将显示Index Seek操作符。您必须牢记这种行为，并在查询性能优化期间始终分析范围扫描的效率。

在关系数据库中有一个称为SARGable谓词的概念，它代表Search Argument able。如果SQL Server可以利用索引查找操作（如果存在索引），则谓词是SARGable。简言之，当SQL Server可以隔离要处理的索引键值的单个值或范围时，谓词就是SARGable，从而限制了谓词评估期间的搜索。显然，使用SARGable谓词编写查询并尽可能利用索引查找是有益的。

SARGable谓词包括下列操作符：=、>、>=、<、<=、IN、BETWEEN和LIKE（在前缀匹配的情况下）。非SARGable操作符包括NOT、<>、LIKE(在非前缀匹配的情况下)和NOT IN。

使谓词不可SARGable的另一种情况是对表列使用函数或数学计算。SQL Server必须调用该函数或对其处理的每行执行计算。幸运的是，在某些情况下，您可以重构查询以使得这样的谓词SARGable。表2-1显示了一些例子。

第2章 ■ 表和索引：内部结构和访问方法

你必须记住的另一个重要因素是类型转换。在某些情况下，可以使用不正确的数据类型使谓词不可SARGable。让我们创建一个包含varchar列的表，并用一些数据填充它，如清单2-6所示。

清单2-6。SARG谓词和数据类型：测试表创建

create table dbo.Data
(
VarcharKey varchar(10) not null,
Placeholder char(200)
);

create unique clustered index IDX_Data_VarcharKey
on dbo.Data(VarcharKey);

;with N1(C) as (select 0 union all select 0) -- 2 rows
,N2(C) as (select 0 from N1 as T1 cross join N1 as T2) -- 4 rows
,N3(C) as (select 0 from N2 as T1 cross join N2 as T2) -- 16 rows
,N4(C) as (select 0 from N3 as T1 cross join N3 as T2) -- 256 rows
,N5(C) as (select 0 from N4 as T1 cross join N4 as T2) -- 65,536 rows
,IDs(ID) as (select row_number() over (order by (select null)) from N5)
insert into dbo.Data(VarcharKey)
select convert(varchar(10),ID) from IDs;

集群索引键列被定义为varchar，即使它存储整数值。现在，让我们运行两个选择，如清单2-7所示，并查看执行计划。

第2章 ■ 表和索引：内部结构和访问方法

清单2-7。SARG谓词和数据类型：用整数参数选择

declare

@IntParam int = '200'

select * from dbo.Data where VarcharKey = @IntParam;

Select * from dbo.Data where VarcharKey = convert(varchar(10),@IntParam);

如图2-14所示，在整数参数的情况下，SQL Server扫描集群索引，将每行的varchar转换为整数。在第二种情况下，SQL Server在开始时将整数参数转换为varchar，并利用更有效的集群索引查找操作。

图2-14。SARG谓词和数据类型：整数参数的执行方案

■ 提示注意连接谓词中的列数据类型。隐式或显式数据类型转换可以显著降低查询的性能。

在unicode字符串参数的情况下，您将观察到非常类似的行为。让我们运行清单2-8所示的查询。图2-15显示了语句的执行计划。

清单2-8。SARG谓词和数据类型：用字符串参数选择

select * from dbo.Data where VarcharKey = '200';

select * from dbo.Data where VarcharKey = N'200'; -- unicode parameter

第2章■ 表和索引：内部结构和访问方法

图2-15。SARG谓词和数据类型：具有字符串参数的执行计划

正如您所看到的，Unicode字符串参数对于VARCHAR列是非SGARABLE。这是一个比看上去更大的问题。虽然很少以这种方式编写查询，如清单2-8所示，但是现在大多数应用程序开发环境将字符串视为unicode。因此，SQL Server客户端库为字符串对象生成unicode(nvarchar)参数，除非参数数据类型明确指定为varchar。这就使得谓语不可理解，它可以导致主语。即使对varchar列进行索引，由于不必要的扫描也会导致性能下降。

Parameters.Add("@ParamName").Value = stringVariable overload. 在ORM框架中使用映射来显式地指定类中的非unicode属性。

还值得一提的是，对于nvarchar unicode数据列，varchar参数是SARGable。

转载于:https://www.cnblogs.com/spiderwang/p/10057130.html