关于聚集索引

最新推荐文章于 2023-06-21 16:52:28 发布

vchenpeng

最新推荐文章于 2023-06-21 16:52:28 发布

阅读量1.2k

点赞数

本文链接：https://blog.csdn.net/vchenpeng/article/details/52435928

版权

　　索引是数据库规划和系统维护中至关重要的部分。它们为SQL Server（或者其他数据库系统）提供另外的查找数据的手段，并通过捷径抵达数据的物理位置。添加正确的索引能够极大减少查询的执行时间，遗憾的是，许多设计糟糕的查询实际上增加了执行查询的时间，事实上，索引是SQL Server提供的对象中最容易误解的对象之一，因而也倾向于成为最容易处理失当的对象之一。

初步简单理解聚集索引与非聚集索引

　　其实，我们的汉语字典的正文本身就是一个聚集索引。

　　1.聚集索引　　比如，我们要查“安”字，就会很自然地翻开字典的前几页，因为“安”的拼音是“an”，而按照拼音排序汉字的字典是以英文字母“a”开头并以“z”结尾的，那么“安”字就自然地排在字典的前部。如果您翻完了所有以“a”开头的部分仍然找不到这个字，那么就说明您的字典中没有这个字；同样的，如果查“张”字，那您也会将您的字典翻到最后部分，因为“张”的拼音是“zhang”。也就是说，字典的正文部分本身就是一个目录，您不需要再去查其他目录来找到您需要找的内容。我们把这种正文内容本身就是一种按照一定规则排列的目录称为“聚集索引”。

　　2.非聚集索引　　如果您认识某个字，您可以快速地从自动中查到这个字。但您也可能会遇到您不认识的字，不知道它的发音，这时候，您就不能按照刚才的方法找到您要查的字，而需要去根据“偏旁部首”查到您要找的字，然后根据这个字后的页码直接翻到某页来找到您要找的字。但您结合“部首目录”和“检字表”而查到的字的排序并不是真正的正文的排序方法，比如您查“张”字，我们可以看到在查部首之后的检字表中“张”的页码是672页，检字表中“张”的上面是“驰”字，但页码却是63页，“张”的下面是“弩”字，页面是390页。很显然，这些字并不是真正的分别位于“张”字的上下方，现在您看到的连续的“驰、张、弩”三字实际上就是他们在非聚集索引中的排序，是字典正文中的字在非聚集索引中的映射。我们可以通过这种方式来找到您所需要的字，但它需要两个过程，先找到目录中的结果，然后再翻到您所需要的页码。我们把这种目录纯粹是目录，正文纯粹是正文的排序方式称为“非聚集索引”。

理解索引

　　在韦氏词典中，索引定义如下：

　　通常以字母顺序排列的某种指定资料（如作者，主题或关键字）的列表（如书目信息或对著作正文的引用）。

　　在数据库中，我们将用更简单的方法来说明，称索引是能够以很快的速度到达数据的一种手段，尽管如此，韦氏词典的定义也还不错——即便是对于当前特定的用途而言。

　　或许，在韦氏词典的定义中，要指的关键事情是使用的“通常”一词，在很多规则下，“字母顺序”的定义会发生改变，例如，在SQL Server中，有许多不同的排序选项可用，些　　选项有：

二进制——根据字符的数字表示，（例如，以ASCII表示时，空格用数字32表示，字母D是68,而字母d是100）进行排序。由于所有的事物都是数字的，因此这是最快的一种排序选择，遗憾的是，它不是人们思考问题的方式，因而实际上在Where子句中，可能会带来麻烦。
字典顺序——这种排序方式就是你在字典中看到的排序方式一样，不过有一点改变，可以设置许多不同的附加选项，以确定区分大小写、区分重音以及字符集选项。

　　理解这样的内容是相当容易的：如果告诉SQL Server注意大小写，那么A将不等于a，同样，如果告诉SQL Server不区分大小写，那么A是等于a的。当添加区分重音选项时，事情变得有点难理解了，这时SQL Server会留意变音符号，因引a与á及à均不同。排序规则不仅会影响数据是否相等，而且会影响排序的顺序（因此，会影响到在索引中存储的方式）这一点对于许多人而言则更加不易理解。

在SQL Server中如何访问数据

　　大体上，SQL Server检索请求的数据的方式只有两种：

使用表扫描
使用索引

　　SQL Server将使用哪一种方法执行特定的查询，这取决于有什么索引可用、询问是什么列、在进行什么类型的联结以及表的大小。

1.　　使用表扫描

　　表扫描是非常直观的过程，在执行表扫描时，SQL Server从表物理起点开始，浏览表中的每一行，当发现符合查询条件的行时，把这些行包含在结果集中。当从相当小的表中检索数据时使用表扫描有性能上的优势，但表的大小具体为多少时表扫描会成为最快的访问方法，这将随表的宽度和查询的特定性质而有很大的差异。

2.　　使用索引

　　当SQL Server决定使用索引时，实际上，其处理过程与表扫描多少有些想似，只是这里有一些捷径。在查询优化过程中，优化器考查所有可用的索引，然后选择最佳的一个（这主要基于联结和Where子句中指定的信息，结合SQL Server保存的关于索引组成的统计信息）。一旦选定了索引，SQL Server在索引的树结构中导航，到达匹配查询条件的数据，再提取需要的记录，区别之处，由于数据是排序的，因此查询引擎知道何时到达当前找寻范围的终点，于是，它能结束查询，或者在需要时继续移动到下一级的数据范围。

　　大家可能会注意到索引与Exists函数的作用方式有相似之处，Exists函数允许查询在找到匹配值后立即退出运行，由于利用索引搜索数据的过程以类似的方式进行，因而使用索引能同样或者甚至更好的改进性能，即系，服务器能够了解什么时候再没有任何相关的数据存在了，并能停止检索。然而，使用索引甚至能更好，因为无需局限于布尔逻辑的情形中，可以在范围的开始处应用同样的概念——可以把数据范围聚集在一起，本质上具有与查找数据时使用索引同样的好处，此外，能够进行非常快速的数据查找（称为SEEK），而不是在整个表中搜索数据。

索引类型和索引导航

　　虽然在SQL Server中名义上有两种类型的索引（聚集索引和非聚集索引），但实际上，内部来说有三种索引类型：

聚集索引 (也叫聚簇索引，簇索引)
非聚集索引——包含：
- 堆上的非聚集索引；
- 聚集索引上的非聚集索引；

1.聚集索引

　　 聚集索引（clustered index）也叫聚簇索引、簇类索引，是一种对磁盘上实际数据重新组织以按指定的一个或多个列的值排序。由于聚集索引的索引页面指针指向数据页面，所以使用聚集索引查找数据几乎总是比使用非聚集索引快。每张表只能建一个聚集索引，并且建聚集索引需要至少相当该表120%的附加空间，以存放该表的副本和索引中间页，但并非一定要有聚集索引，如果是聚集表（任何有聚集索引的表），那么聚集索引是最经常作为第一个索引选用的索引类型。

2.1 堆上的非聚集索引

　　堆上的非聚集索引在各方面都与聚集索引的作用很类似，然而，它们确实有几个显著的区别。叶级不是数据，而是数据的指针，指针以索引所指向的特定行的行标识符（RID）形式出现。尽管叶级并非真正的数据，但是，这里不过比使用聚集索引多了一步而已——因为RID包含行位置的完整信息，因而可以直接访问到数据。

2.2 聚集表上的非聚集索引

　　使用聚集表上的非聚集索引时，同样有相似之处，但也有区别，与堆上的非聚集索引一样，索引的非叶级看起来和聚集索引非常类似，到达叶级存储的不是真正的数据，与堆上的非聚集索引不同，它存储的不是行标识符（RID），而是聚集键（clustered key），通过聚集键找到真正的数据。

　　在叶级，它与其他两种索引有显著的区别，这里还有一个索引需要查看，使用聚集索引时，到达了叶级便找到了真正的数据，使用堆上的非聚集索引时，到过叶级还没有得到真正的数据，但是，找到了引领你直达数据的标识符，使用聚集表上的非聚集索引时，在叶级得到是聚集键，这就是说，在这里找到了足够的信息来使用聚集索引。

创建、修改和删除索引

1.Create Index语句

　　创建索引的语法如下：

　　Create [Unique] [Clustered ｜NonClustered]

　　Index <索引名> On <表或视图名> (<列名> [ASC | DESC] [,.....n] )

　　Include(<列名> [,......n] )

　　[

　　With

　　　　[ PAD_INDEX={ON | OFF} ]

　　　　[ [,] FillFactor=<填充因子> ]

　　　　[ [,] IGNORE_DUP_KEY={ ON | OFF } ]

　　　　[ [,] Drop_Existing={ ON | OFF } ]

　　　　[ [,] Statistics_Norecompute={ ON | OFF } ]

　　　　[ [,] Sort_In_TempDB ={ ON | OFF } ]

　　　　[ [,] Online ={ ON | OFF } ]

　　　　[ [,] Allow_Row_Locks={ ON | OFF } ]

　　　　[ [,] Allow_Page_Locks={ ON | OFF } ]

　　　　[ [,] MaxDop=<最大并行度> ]

　　]

　　[ On { <文件组> | <分区方案名> | Default } ]

2.修改索引

　　Alter Index {<索引名> | all }

ON <表或视图>

　　{

　　　　Rebuild

　　[ [ With (

　　　　[ PAD_INDEX={ON | OFF} ]

　　　　| [ [,] FillFactor=<填充因子> ]

　　　　| [ [,] IGNORE_DUP_KEY={ ON | OFF } ]

　　　　| [ [,] Statistics_Norecompute={ ON | OFF } ]

　　　　| [ [,] Sort_In_TempDB ={ ON | OFF } ]

| [ [,] Online ={ ON | OFF } ]

| [ [,] Allow_Row_Locks={ ON | OFF } ]

| [ [,] Allow_Page_Locks={ ON | OFF } ]

| [ [,] MaxDop=<最大并行度> ]

) ]

| [ Partition = <分区号>

[ With (<分区重建选项> [,......n ] )] ] ]

| Disable

| Reorganize

[ Partition = <分区号> ]

[ With ( Lob_Compaction = { ON | Off } ) ]

　　| Set ( [ Allow_row_Locks = { ON | Off } ]

| [ [,] Allow_Page_Locks = { ON | Off } ]

| [ [,] Ignore_Dup_Key = { On | Off } ]

| [ [,] Statistics_Norecompute={ ON | OFF } ]

)

} [;]

3.删除索引

　　Drop Index <表名>.<索引名>

　　引自 http://blog.163.com/j_honghai@126/blog/static/6293621520105202223750/

vchenpeng

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
关于聚集索引

索引是数据库规划和系统维护中至关重要的部分。它们为SQL Server（或者其他数据库系统）提供另外的查找数据的手段，并通过捷径抵达数据的物理位置。添加正确的索引能够极大减少查询的执行时间，遗憾的是，许多设计糟糕的查询实际上增加了执行查询的时间，事实上，索引是SQL Server提供的对象中最容易误解的对象之一，因而也倾向于成为最容易处理失当的对象之一。初步简单理解聚集索引与非聚集索引
复制链接

扫一扫