SQL Server 中索引底层实现

最新推荐文章于 2024-09-07 15:03:29 发布

laoniuer

最新推荐文章于 2024-09-07 15:03:29 发布

阅读量333

点赞数

分类专栏：数据库技术文章标签： SQL Server SQL 数据结构 Oracle

数据库技术专栏收录该内容

26 篇文章 0 订阅

订阅专栏

[size=medium][b]页和盘区（Page and Extents）[/b][/size]

你的表（Tables）中数据实际上都存储在[b]页（pages）[/b]里，除了BLOB类型的数据。如果某列的字段的类型为BLOB那么将有一个16字节的指针指向BLOB page。页是MS SQL Server中数据存储的最小单位。每页包含以行（row）为单位保存数据。一行只能存储在一个页中。[b]每页可以容纳8KB的信息[/b]。因为这个原因，每行的最大值为8KB。一组相邻的8个页被称为一个[b]盘区（Extent）[/b]

[size=medium][b]堆文件和分配映射索引（Heap and the Index Allocation Map(IAM)）[/b][/size]

堆文件在[b]sysindexs[/b]表中只有一行记录，并且其[b]indid = 0. sysindexs.FIRSTIAM[/b]字段指向了IAM页链表中一个IAM页，IAM页是用来管理SQL Server已经给堆文件分配的空间。MS SQL Server2000用[b]IAM[/b]（Index Allocation Map）页来在堆文件中导航（navigate）。在堆文件中，数据页（data page）和数据页中数据没有按照特定的顺序存储，[b]也没有链接在一起[/b]。数据页之间唯一的逻辑链接是通过IAM页中记录来实现的。
[img]http://dl.iteye.com/upload/attachment/151613/c31830e9-94a5-3bde-a413-a50fff259ba7.gif[/img]

[size=medium][b]索引结构（Index Structure）[/b][/size]

[b] 所有的SQL Server 索引都是 B-Trees[/b]。在这种树的顶端有一个[b]根页（root page）[/b]，通过root page来访问N个[b]中级（intermediate level）页[/b]，直到树的底部、或[b]叶级（leaf level）[/b]。可以通过树中每个节点的指针从上向下扫描整个索引树。另外，每个索引级（index leves）（可能是intermediate leve or leaf level）都有一个页链（page chain）。在一个索引中有许多intermediate level。索引树的级数（树的高度）与索引码的宽度、索引类型、记录行数和表中的页数有关，并且索引树的级数是影响索引性能的一个重要参数。

[size=medium][b]非聚集索引（Nonclustered Indexs）[/b][/size]

一个非聚集索引[b]与一本书的索引相似。数据存储在一个地方，索引存储在另外一个地方[/b]，可以通过索引中的指针来访问存储的数据。索引中的条目是按照索引码的值按序存储，但是表中的信息可以按照不同的顺序存储（如可以按照聚集索引存储）。如果表中没有创建聚集索引，那么表中的记录就不能保证按照某种特定的顺序。

[img]http://dl.iteye.com/upload/attachment/151631/3d22d11d-ad55-385e-8b94-c509a11ead7f.gif[/img]

与你用一本书的索引方式一样，SQL Server2000也是先通过非聚集索引检索到查找数据在表的位置，然后通过该位置来检索数据。[b]这使得非聚集索引非常适合精确匹配查询（This makes nonclustered indexes the optimal choice for exact match queries）[/b],因为索引条目中包含了你需要查找数据的位置信息。如果当前的表是以聚集索引方式存储，那么非聚集索引的位置信息就是聚集索引的索引码（index key）；否则，位置信息就是row ID（RID)，每个RID由file number、page number和 slot number of row（每行记录的槽号）。比如，要在一个表中检索某个employee ID（emp_id），该表已经有在emp_id列上创建了非聚集索引，SQL Server查找索引树，找到一个索引条目包含你需要查找的emp_id,然后利用其中RID来访问到对应数据页中的值。

[size=medium][b]注意事项[/b][/size]

[b]非聚集索引适用于以下场景：[/b]
[list]
[*]列中包含大量的不同值，如last name 和 first name 构成的复合索引（假如已用另外列创建的聚集索引）。如果某列中只有很少的不同值，如0或者1，大多数查询不会利用该索引的，因为一个表扫描通常更有效率。
[*][b]不返回大量结果集的查询 Queries that not return large result sets [/b]
[*]经常被包含在一个查询条件语句（WHERE clause）的列,且该查询[b]返回精确配备（return exact matches）[/b]
[*]决策支持系统中经常需要表之间的关联（join）和聚集（group）。在被包含在join和grouping操作的列上建立非聚集索引，和在外键列上建立聚集索引。
[*]一个给定的查询包含了表中所有的列，这样可以减少对表或聚集索引的访问。（Covering all columns from one table in a given query. This eliminates accessing the table or clustered index altogether.）我的理解就是覆盖索引。
[/list]

[size=meidum][b]聚集索引(Clustered Indexs)[/b][/size]

一个聚集索引决定了一个表中数据的物理存储顺序。一个聚集索引与一个电话目录相似，电话目录是按照last name来存放。因为聚集索引决定一张表中数据的物理存放顺序，所以[b]一张表只能有个聚集索引[/b],一个聚集索引可以包含多个列（复合索引），就像电话目录一样按照last name 和 first name记录一样，聚集索引与Oracle中的IOT'S(Index-Organized Tables)相似。

[img]http://dl.iteye.com/upload/attachment/151655/a4ed35f3-f639-33e5-ab11-56658793b25c.gif[/img]

一个聚集索引对[b]范围查询非常有效率efficient on columns that are often searched for ranges of values[/b]。当用聚集索引把第一个行检索出来之后，后续行一定能保证在物理上是相邻的。例如，应用的某个查询需要频繁执行一个范围查询，聚集索引可以快速定位到满足条件的第一个数据，然后再检索表中与之相邻的记录直到最后一条记录。这样可以调高这类查询的性能。另外，如果某列经常用来对表中的数据进行排序（sort），该情况下也可利用聚集索引来节省每次排序的时间。

当索引值唯一时，需要查找一个指定行，此时聚集索引也是高效率的。例如，用最快的方式来找到一个指定empoyee ID的employee记录就是在emp_id列上创建一个聚集索引。

[size=medium][b]注意事项[/b][/size]

[b]在创建聚集索引时，索引列应该尽量少，这一点很重要。[/b]如果定义一个大的索引码，那么该表中的任何非聚集索引就会显著的增大，因为每个非聚集索引叶级索引条目都包含了一个聚集索引码。

[b] 聚集索引适用于以下场景：[/b]
[list]
[*]列中包含大量的不同值
[*]返回一个范围记录的查询，像BETWEEN, >, >=, <, and <=.的操作；
[*]顺序访问的列
[*]返回大量记录的查询
[*]在查询中某列被频繁的包含在join或group语句中，尤其该列也是该表的外键。在ORDER BY或 GROUP BY语句的列上建立聚集索引可以减少SQL Server对数据的排序，因为表中行已经是有序的了，这样可提高查询的性能。
[*]在OLTP类的应用中经常需要快速查找某行记录，尤其是一主键的来查找，此时可在主键上创建一个聚集索引。
[/list]

[b]聚集索引不适合以下场景：[/b]
[list]
[*]频繁变化的列。这样造成了表中行经常移动，
[*]宽键（wide keys）聚集索引的索引码被所有的非聚集索引来用来检索，所被存储在每个非聚集索引的叶级索引条目中。
[/list]

laoniuer

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
SQL Server 中索引底层实现

[size=medium][b]页和盘区（Page and Extents）[/b][/size] 你的表（Tables）中数据实际上都存储在[b]页（pages）[/b]里，除了BLOB类型的数据。如果某列的字段的类型为BLOB那么将有一个16字节的指针指向BLOB page。页是MS SQL Server中数据存储的最小单位。每页包含以行（row）为单位保存数据。一行只能存储在一...
复制链接

扫一扫

专栏目录