5.6的翻译（补档）

最新推荐文章于 2024-06-19 19:42:53 发布

冬时快晴

最新推荐文章于 2024-06-19 19:42:53 发布

阅读量94

点赞数 1

文章标签：翻译

聚集索引

聚集索引指示表中数据的物理顺序，该顺序根据聚集索引键进行排序。表只能定义一个聚集索引。

让我们假设您希望在包含数据的堆表上创建一个聚集索引。作为第一步（如图2-5所示），SQL Server创建数据的另一个副本，然后根据聚集键的值进行排序。数据页在双链接列表中链接，其中每个页都包含指向链中下一页和上一页的指针。这个列表称为索引的叶级，它包含实际的表数据。

当叶级由多个页面组成时，SQL Server开始构建索引的中间级别，如图2-6所示。

中间层为每个叶级页存储一行。它存储两条信息：物理地址和它引用的页面中索引键的最小值。唯一的例外是第一页的第一行，其中SQL Server存储的是空值而不是最小索引键值。通过这种优化，在表中插入键值最低的行时，SQL Server不需要更新非叶级行。

中间层的页面也链接到双链接列表。SQL Server添加了越来越多的中间级别，直到有一个仅包含单个页面的级别为止。这个级别称为根级别，它成为索引的入口点，如图2-7所示。

如您所见，索引总是有一个叶级、一个根级和零个或多个中间级。唯一的例外是当索引数据适合一个页面时。在这种情况下，SQL Server不会创建单独的根级别页，并且索引仅由单个叶级页组成。

索引中级别的数量在很大程度上取决于行和索引键的大小。例如，4字节整数列的索引在中间和根级别上每行需要13个字节。这13个字节由一个2字节的槽数组项、一个4字节的索引键值、一个6字节的页指针和一个1字节的行开销组成，这足够了，因为索引键不包含可变长度和空列。

因此，每行可容纳8060字节/13字节=每页620行。这意味着，使用一个中间级别，您可以存储最多620*620=384400页的信息。如果数据行大小为200字节，那么每个叶级页面可以存储40行，索引中最多可以存储15376000行，只有三个级别。在索引中添加另一个中间级别基本上可以覆盖所有可能的整数值。

SQL Server可以通过三种不同的方式从索引中读取数据。第一个是按顺序扫描。假设我们要运行从dbo.customers order by customerid查询中选择名称。索引叶级上的数据已基于customerid列值排序。因此，SQL Server可以扫描索引的叶级，从第一页到最后一页，并按存储的顺序返回行。

SQL Server从索引的根页面开始，从中读取第一行。该行使用表中的最小键值引用中间页。SQL Server读取该页并重复该过程，直到在叶级找到第一页。然后，SQL Server开始逐个读取行，在页面的链接列表中移动，直到读取完所有行。图2-8说明了这一过程。

前面查询的执行计划显示了将有序属性设置为true的聚集索引扫描操作符，如图2-9所示。

值得一提的是，ORDERBY子句不需要触发有序扫描。有序扫描只意味着SQL Server根据索引键的顺序读取数据。

SQL Server可以在索引中向前和向后导航。但是，您必须记住一个重要方面：在向后索引扫描期间，SQL Server不使用并行性。

SQL Server企业版具有一个名为merry go round scan的优化功能，允许多个任务共享同一索引扫描。假设您有会话s1，它正在扫描索引。在扫描过程中的某个时刻，另一个会话s2运行一个需要扫描同一索引的查询。通过旋转扫描，s2在当前扫描位置连接s1。SQL Server只读取每页一次，将行传递给两个会话。

当s1扫描到达索引末尾时，s2开始从索引开始扫描数据，直到s2扫描开始的点。merry go round扫描是另一个例子，说明了为什么不能依赖索引键的顺序，以及为什么在重要的时候应该始终指定ORDER BY子句。

顺序扫描之后的下一个访问方法称为分配顺序扫描。SQL服务器通过IAM页面访问表数据，类似于堆表的访问方式。使用（nolock）查询和图2-10的dbo.customers中的select name说明了这种方法。图2-11显示了查询执行计划。

不幸的是，当SQL Server使用分配顺序扫描时，很难检测到它。尽管执行计划中的ordered属性显示为false，但它表示SQL Server即不关心行是否按索引键的顺序读取，也不关心是否使用了分配顺序扫描。

对于扫描大型表来说，分配订单扫描可以更快，尽管它具有更高的启动成本。当表很小时，SQL Server不使用此访问方法。另一个重要的考虑因素是数据一致性。SQL Server不在具有聚集索引的表中使用转发指针，并且分配顺序扫描可能会产生不一致的结果。由于页拆分导致的数据移动，可以多次跳过或读取行。因此，SQL Server通常避免使用分配顺序扫描，除非它以读取未提交或可序列化事务隔离级别读取数据。

最后一个索引访问方法称为索引查找。从dbo.customers中选择名称，其中customerid在4和7之间的查询和图2-12演示了该操作。

为了从表中读取行的范围，SQL Server需要从该范围中找到键的最小值为4的行。SQL Server从根页面开始，第二行引用最小键值为350的页面。它大于我们要查找的键值（4），并且SQL Server读取根页面上第一行引用的中间级数据页（1:170）。

类似地，中间页将SQL Server引导到第一个叶级页（1:176）。SQL Server读取该页，然后读取CustomerID为4和5的行，最后从第二页读取剩余的两行。

执行计划如图2-13所示。

可以猜到，索引查找比索引扫描更有效，因为SQL Server只处理行和数据页的子集，而不是扫描整个表。

从技术上讲，有两种索引查找操作。第一种方法称为单例查找，有时称为点查找，其中SQL Server查找并返回一行。您可以考虑以customerid=2谓词的位置为例。另一种类型的索引查找操作称为范围扫描，它要求SQL Server查找键的最低或最高值，并扫描（向前或向后）行集，直到达到扫描范围的结尾。CustomerID介于4和7之间的谓词导致范围扫描。这两种情况都显示为执行计划中的索引查找操作。

正如您所猜测的，范围扫描完全有可能强制SQL Server处理索引中的大量甚至所有数据页。例如，如果将查询更改为使用where customerid>0谓词，则SQL Server将读取所有行/页，即使在执行计划中显示了索引查找运算符。您必须记住这种行为，并始终在查询性能优化期间分析范围扫描的效率。

关系数据库中有一个称为sargable谓词的概念，它代表搜索可论证。如果SQL Server可以使用索引查找操作（如果存在索引），则谓词是可分析的。简言之，当SQL Server可以隔离要处理的索引键值的单个值或范围时，谓词是可分析的，因此限制了谓词计算期间的搜索。显然，使用可sargable谓词编写查询并尽可能使用索引查找是有益的。

可搜索谓词包括以下运算符：=、>、>=、<、<=、in、between和like（在前缀匹配的情况下）。不可sargable运算符包括not、<>、like（在不匹配前缀的情况下）和not in。

使谓词不可分析的另一种情况是对表列使用函数或数学计算。SQL Server必须调用函数或对其处理的每一行执行计算。幸运的是，在某些情况下，您可以重构查询，使这些谓词具有可分析性。表2-1给出了一些例子。

另一个必须记住的重要因素是类型转换。在某些情况下，可以通过使用不正确的数据类型使谓词不可分析。让我们用varchar列创建一个表，并用一些数据填充它，如清单2-6所示。

清单2-6。sarg谓词和数据类型：创建测试表

create table dbo.Data

(

VarcharKey varchar(10) not null,

Placeholder char(200)

);

create unique clustered index IDX_Data_VarcharKey

on dbo.Data(VarcharKey);

;with N1(C) as (select 0 union all select 0) -- 2 rows

,N2(C) as (select 0 from N1 as T1 cross join N1 as T2) -- 4 rows

,N3(C) as (select 0 from N2 as T1 cross join N2 as T2) -- 16 rows

,N4(C) as (select 0 from N3 as T1 cross join N3 as T2) -- 256 rows

,N5(C) as (select 0 from N4 as T1 cross join N4 as T2) -- 65,536 rows

,IDs(ID) as (select row_number() over (order by (select null)) from N5)

insert into dbo.Data(VarcharKey)

select convert(varchar(10),ID) from IDs;

聚集索引键列被定义为varchar，即使它存储整数值。现在，让我们运行两个选择，如清单2-7所示，并查看执行计划。

清单2-7。sarg谓词和数据类型：用整数参数选择

declare

@IntParam int = '200'

select * from dbo.Data where VarcharKey = @IntParam;

select * from dbo.Data where VarcharKey = convert(varchar(10),@IntParam);

如图2-14所示，对于integer参数，SQL Server扫描聚集索引，将varchar转换为每行的整数。在第二种情况下，SQL Server在开始时将integer参数转换为varchar，并使用更高效的聚集索引查找操作。

在Unicode字符串参数的情况下，您将观察到非常相似的行为。让我们运行清单2-8所示的查询。图2-15显示了报表的执行计划。

清单2-8。sarg谓词和数据类型：用字符串参数选择

select * from dbo.Data where VarcharKey = '200';

select * from dbo.Data where VarcharKey = N'200'; -- unicode parameter

如您所见，对于varchar列，unicode字符串参数是不可分析的。这是一个比看上去更大的问题。虽然很少用这种方式编写查询，如清单2-8所示，但大多数应用程序开发环境现在将字符串视为Unicode。因此，除非参数数据类型显式指定为varchar，否则SQL Server客户端库会为字符串对象生成unicode（nvarchar）参数。这使得谓词不可分析，并且即使在对varchar列进行索引时，也可能由于不必要的扫描而导致重大性能损失。

值得一提的是，varchar参数可用于nvarchar unicode数据列。