索引

什么是索引:可以将大量的数据压缩成极其精确和高效的结构,加快查询速度并提升数据库性能

什么是索引:是数据库中的一种数据结构,它通过有序存储和索引键的映射关系,提高了数据的查询效率和访问速度,使得数据库操作更加高效和快速。

本质:能通过改变数据结构加快查询效率

本质的本质,加索引能改变数据结构,同时改变查询算法来加快查询

理解:

就像字典中的查询方法,可以根据abcde查(聚集索引),根据偏旁部首查(非聚集索引)

索引类别

一.针对性索引

针对特殊情况下的索引(既能针对类型和特殊结构又能针对业务)

全文索引(Full-Text Index):全文索引用于在文本和字符数据上进行全文搜索。它可以加快包含自然语言文本的列的查询速度。

空间索引(Spatial Index):用于加速空间数据查询,例如地理数据类型或几何数据类型字段。

字符串索引(String or Text Index):针对字符串或文本数据类型的字段,提供更高效的字符串匹配和搜索能力。

JSON 索引(JSON Index):专门针对 JSON 数据进行索引和查询优化。

XML 索引(XML Index):用于加速 XML 数据类型字段的查询。

列存储索引(Columnstore Index):专为大批量的数据读取操作而设计,适用于数据仓库和分析场景。

Hash 索引(Hash Index):Hash 索引使用哈希算法将键值转换为索引值,因此不使用树状结构。适用于等值查询,但不支持范围查询。

过滤索引(Filtered Index):过滤索引是一种针对表中满足特定条件的行创建的索引。它只包含满足指定过滤条件的行,可以显著减小索引的大小,并提高查询性能。

二.非针对性索引

不针对类型和结构只针对业务方面

普通索引(Index):普通索引是指简单的索引,不具备任何特殊属性或约束。可以是聚集索引或非聚集索引。

聚集索引(Clustered Index):聚集索引决定了数据行的物理存储顺序。一个表只能有一个聚集索引,通常是主键。聚集索引的键值唯一且可排序。

非聚集索引(Non-clustered Index):非聚集索引定义了列或列集合的逻辑顺序,并且包含指向行的物理位置的指针。一个表可以有多个非聚集索引。

唯一索引(Unique Index):唯一索引要求索引列的值是唯一的,不允许重复值。可以是聚集索引或非聚集索引。

离散索引(Discrete Index):离散索引实际上是指基于单个列的值创建的索引,而不是多列索引。离散索引只包含一个列作为索引键,用于支持单列的查询、排序和过滤操作。

覆盖索引(Covering Index):覆盖索引是一种非聚集索引,它包含了需要查询或返回的所有列的数据。通过覆盖索引,可以避免查询时额外的表数据访问,提高查询性能。

多列索引(联合索引)(Composite Index):多列索引是基于多个列的值创建的索引。它可以包含两个或多个列,并且支持列的按顺序查询。

数据库查询模式

一般查询模式

线性搜索:对于不带索引或不适合使用索引的查询,数据库引擎可能会采用线性搜索算法。这意味着它会逐行遍历表中的数据,逐一匹配查询条件,直到找到满足条件的结果。

索引树查询算法

索引树有b+树和二叉树

b+树
  1. 从根节点开始,在每个节点上执行以下步骤:
  • 比较查询键值与当前节点上的键值范围,确定应继续向左子节点还是右子节点搜索。
  • 如果查询键值小于等于节点上的最小键值,则沿左子节点继续向下搜索。
  • 如果查询键值大于节点上的最大键值,则沿右子节点继续向下搜索。
  • 如果查询键值在节点的最小键值和最大键值之间,则表示找到了匹配的节点,搜索结束。
  1. 如果找到了匹配的节点且该节点是叶子节点,则返回对应的数据。
  2. 如果找到了匹配的节点但该节点是内部节点,则继续向下搜索,直到找到叶子节点或匹配的节点。

非常抱歉之前的回答中有误导性的描述,希望这次能够更清楚地解释。

以下是一个简化的 B 树示例来说明算法的执行过程,假设有一个 B 树索引存储了一列整数,查询键值为 50: [30,50,70] / | \ [10,20] [35] [55] [80,90]

按照修改后的 B 树的查询算法,我们从根节点开始搜索。在根节点上,查询键值 50 在 [30,50,70] 的范围内,所以我们继续向中间子节点搜索。在中间子节点上,查询键值 50 在 [35,55] 的范围内,所以我们找到了匹配的节点,即叶子节点。

通过 B 树的查询算法,我们可以在树中进行二进制搜索,快速定位到满足查询条件的叶子节点,从而获得所需的数据。

再次对之前的错误回答表示道歉,希望这次的解释更清楚明了。如果还有任何疑问,请随时提出。

和二叉树区别

二叉树(Binary Tree)和 B+ 树(B+ Tree)是两种不同的数据结构,它们在设计和应用中有一些关键区别。

  1. 结构差异:
  • 二叉树:每个节点最多有两个子节点,即左子节点和右子节点。
  • B+ 树:每个节点可以有多个子节点,通常包含一个关键字和指向子节点的指针。
  1. 应用场景差异:
  • 二叉树:主要用于在内存中操作和组织数据,例如二叉搜索树(BST)用于快速查找、插入和删除操作。它对于小规模数据集的操作很高效,但在大规模数据集的情况下可能会导致性能问题。
  • B+ 树:设计用于在磁盘或其他外部存储设备上组织和查找大规模数据集。B+ 树通过最小化磁盘访问次数来提高性能,并且适合进行范围查询、顺序访问和大规模数据的高效插入和删除。
  1. 叶节点存储差异:
  • 二叉树:叶节点存储实际的数据项。
  • B+ 树:叶节点只包含实际的数据,而非叶节点只包含索引项。
  1. 叶节点的顺序性:
  • 二叉树:由于数据项存储在叶节点上,因此数据项之间的顺序关系是由叶节点之间的链接来维护的。
  • B+ 树:叶节点通过指针进行链接,形成一个有序链表。这种有序链表可以支持范围查询和按顺序访问。
  1. 磁盘 I/O 访问差异:
  • 二叉树:由于每个节点只有两个子节点,可能需要进行多次磁盘 I/O(例如二叉搜索树中的左或右转)来查找特定的数据项。
  • B+ 树:通过将更多的子节点放入每个节点中,B+ 树减少了磁盘 I/O 的数量,从而提高了检索效率。

总体来说,二叉树适用于小规模数据集的内存操作,而 B+ 树适用于大规模数据集的磁盘操作。B+ 树通过 IO 优化和有序的叶节点链表,提供了更好的范围查询性能,并且能够更好地适应磁盘的顺序读写特性。

算法列举如下

线性搜索(Linear Search):逐行遍历数据表,逐一匹配查询条件。

二分查找(Binary Search):通过二分查找算法在有序索引上进行快速定位。

哈希查找(Hash Lookup):使用哈希函数将查询值转换为哈希索引上的位置,直接定位到匹配的数据。

B+树查找(B+ Tree Lookup):通过在B+树索引上进行查找操作,快速定位到匹配的数据。

排序和合并(Sort and Merge):对多个有序数据集进行排序,然后合并得到结果。

聚合和分组(Aggregation and Grouping):根据查询条件进行数据聚合和分组计算。

嵌套循环连接(Nested Loop Join):使用两个数据表之间的嵌套循环来执行连接操作。

排序归并连接(Sort Merge Join):将两个有序数据集按照连接条件进行排序,然后通过归并操作实现连接。

散列连接(Hash Join):使用散列函数将连接列进行分组,然后对每个分组进行连接操作。

子查询优化:通过优化技术如子查询展开、关联子查询转换等来提升查询性能。

当然!以下是对每个算法的详细说明,包括它们在数据库查询中的出现情况:

  1. 线性搜索(Linear Search):
  • 出现情况:当没有适用的索引可用时,或者数据集较小(或数据集不适合索引)时,通常会使用线性搜索。
  • 工作原理:逐行扫描数据表,逐一比较查询条件,并返回匹配结果。
  1. 二分查找(Binary Search):
  • 出现情况:当数据集有序并且存在有序索引时,可以使用二分查找来快速定位匹配记录。
  • 工作原理:在有序索引上使用二分查找算法,在每次比较中将查询值与索引键值进行比较,并沿着索引进行二分查找操作。
  1. 哈希查找(Hash Lookup):
  • 出现情况:当表具有哈希索引或哈希函数,并且查询条件可以进行哈希转换时,可以使用哈希查找。
  • 工作原理:通过哈希函数将查询值计算为哈希值,然后在哈希索引中定位到匹配的哈希槽,并进行额外的比较以获取准确匹配。
  1. B+树查找(B+ Tree Lookup):
  • 出现情况:当表具有B+树索引时,可以使用B+树进行快速查找和定位。
  • 工作原理:在B+树索引上进行递归查找,根据比较结果向下遍历不同的子节点,最终在叶子节点中找到匹配的记录。
  1. 排序和合并(Sort and Merge):
  • 出现情况:在执行多表连接或多个数据集的合并时,通常需要对数据进行排序和合并操作。
  • 工作原理:将待连接或待合并的数据集按照连接条件或排序规则进行排序,然后使用合并算法将排序后的数据集合并成最终结果。
  1. 聚合和分组(Aggregation and Grouping):
  • 出现情况:当需要对数据进行计算、聚合或分组操作时,通常会使用聚合和分组算法。
  • 工作原理:根据查询条件进行数据聚合,例如计算总和、平均值、最大值或最小值,并根据指定的分组条件对结果进行分组。
  1. 嵌套循环连接(Nested Loop Join):
  • 出现情况:当执行连接操作时,其中一个数据集相对较小,可以在另一个数据集上使用嵌套循环来实现连接。
  • 工作原理:对于外部循环中的每个行,内部循环遍历另一个数据集,执行连接条件的比较,并返回匹配的结果。
  1. 排序归并连接(Sort Merge Join):
  • 出现情况:当多个数据集都已经按照连接条件进行排序时,可以使用排序归并连接来高效地执行连接操作。
  • 工作原理:将排序后的数据集通过归并操作进行合并,根据连接条件比较匹配的值,并返回连接结果。
  1. 散列连接(Hash Join):
  • 出现情况:当数据集较大且无序时,通过散列连接可以提供高效的连接操作。
  • 工作原理:使用散列函数对连接列进行分组,将两个数据集进行散列操作,并根据散列值进行匹配,返回连接结果。
  1. 子查询优化:
  • 出现情况:当查询中包含子查询时,数据库优化器可以选择不同的优化策略,如

复制

当查询中包含子查询时,数据库优化器可以选择不同的优化策略,比如:

  • 子查询展开(Subquery Unfolding):将子查询的结果直接嵌入到主查询中,避免频繁的子查询计算和读取操作。
  • 关联子查询转换(Correlated Subquery Transformation):将关联子查询转换为更高效的连接操作,减少子查询的计算次数。
  • 子查询合并(Subquery Merging):将多个相似的子查询进行合并,减少查询中的重复计算。
  • 条件推导(Predicate Pushdown):将主查询的条件推导到子查询中,减少子查询的计算量。
  • 子查询剪枝(Subquery Pruning):通过分析查询依赖关系,剪枝掉不必要的子查询,减少计算和读取操作。

需要注意的是,在实际场景中,数据库优化器通常会根据查询的复杂性、数据统计信息、索引情况以及系统资源等综合考虑,选择最优的优化策略和执行计划。

此外,还有其他一些高级查询优化算法和技术,如索引选择器(Index Selector)、查询重写(Query Rewriting)、自适应查询优化(Adaptive Query Optimization)等,在复杂的查询场景中使用,以进一步提升查询性能和响应时间。

索引之间的配合使用

当使用聚集索引和非聚集索引配合使用时,数据库查询可能会采用以下算法:

  1. 聚集索引扫描(Clustered Index Scan):对于使用聚集索引的查询,可以通过聚集索引的物理顺序来快速扫描和定位记录。当查询条件涵盖了聚集索引的键值范围时,可以直接在聚集索引上进行扫描,加速查询。
  2. 非聚集索引扫描(Non-clustered Index Scan):对于使用非聚集索引的查询,可以通过非聚集索引来快速定位记录。当查询条件涵盖了非聚集索引的键值范围时,可以直接在非聚集索引上进行扫描,加速查询。
  3. 聚集索引与非聚集索引的联合使用:在某些情况下,查询条件可能既涵盖了聚集索引的键值范围,又涵盖了非聚集索引的键值范围。此时,数据库优化器可以选择联合使用聚集索引和非聚集索引,并通过合并操作将两个索引的结果集进行交集或并集的操作,从而获得最终的查询结果。
  4. 行ID(Row ID)查找:当在非聚集索引中定位到匹配的记录时,数据库可能需要使用非聚集索引中的行ID(Row ID)来进一步定位和访问聚集索引中的完整记录。这种方式通常在通过非聚集索引找到匹配的记录后,需要获取其他列的数据时使用。

索引之间的关系本质:

当索引有联动的时候他们会变成一个联合索引,并依然遵循索引最左原则

当索引之间存在联动关系时,它们可以被视为联合索引的组成部分,共同参与查询操作。联合索引是由多个列(包括聚集索引和非聚集索引的列)组合而成的索引结构,它能够提供更精确的数据定位和快速的查询性能。

通过联合索引,可以将多个列的值组合在一起作为索引的键值,这样查询时只需要对这个联合键值进行匹配,而不需要单独访问多个独立的索引。这种联合索引可以提供更高效的查询性能,尤其在具有联动关系的列上进行查询时尤为有效。

当联合索引使用聚集索引和非聚集索引的组合时,数据库可以根据查询条件和已有的索引信息,在联合索引中选择最佳的索引路径,从而实现更高效的查询操作。这样的联合索引可以提供更好的数据过滤和数据定位能力,减少磁盘I/O次数,加快查询速度。

需要注意的是,联合索引的创建和使用需要根据具体的数据库系统和表结构进行适配和优化,并需要考虑查询的具体场景和业务需求,以获得最佳的性能和查询体验。

加索引思路

一,选择合适的列

列的选择要选择,查询的频率,比如用户查询的偏好,

选择参与连接操作的列

选择排序的列

二,考虑数据的基数和选择性

基数:指定列中的唯一值得数量和占比

选择性:指索引列的不同值所占的比例。较高的基数和选择性意味着索引的效果更好。

三考虑索引的覆盖性:

若索引包含了查询所需要的全部列,即覆盖了查询的列,就能通过索引直接返回结果,无需再访问表中的数据行。这样可以减少磁盘I/O和数据的传输,提高查询性能。

四,考虑索引的大小和存储成本:

索引不是越多越好,索引会占用磁盘空间和对写操作产生额外开销。因此,需要权衡索引的大小和存储成本,尽量选择索引大小适中、对性能影响较小的方案。

五,了解数据库的限制

不同的数据库系统针对索引有不同的限制,例如最大索引长度、最大索引数等。要确保所选择的索引满足数据库的限制。

六,业务

根据业务设计索引

七,索引算法和原则

通过索引原则来设计索引

除了索引最左原则,还有其他一些重要的索引原则,包括:

  1. 索引最左原则(index leftmost-prefix)在联合索引中,只有按照索引的最左列开始的连续列进行查询时,才能充分利用索引来提高查询性能
  2. 前缀原则(Prefix Principle):对于具有较长长度的索引列,可以考虑只使用部分列作为索引的前缀。这可以减小索引的大小,并在某些情况下提供更好的性能。
  3. 唯一性原则(Uniqueness Principle):对于具有唯一性约束的列(如主键),应该使用唯一索引来确保数据的唯一性。唯一索引还可以加速用于查找和去重操作的查询。
  4. 范围查询原则(Range Query Principle):对于经常使用范围查询(例如区间查询、大于/小于等)的列,可以考虑创建范围索引,以提高查询速度。
  5. 密集性原则(Density Principle):索引的密集性指的是索引的键值中各个值之间的间隔程度。对于具有较高密集性的索引,查询时需要访问的索引页较少,从而提高查询性能。
  6. 倒序原则(Descending Order Principle):对于需要以倒序方式进行排序或查询的列,可以创建倒序索引来优化性能。倒序索引可以减少数据逆序存储的开销。
  7. 离散度原则(Cardinality Principle):索引的离散度指的是索引列中不同值的数量。较高的离散度可以提供更好的查询性能,因为它减少了需要扫描的索引页的数量。
  8. 覆盖原则(Covering Principle):通过创建覆盖索引,可以包含查询所需的所有列,避免访问表中的数据行,从而提高查询性能。

索引碎片

索引碎片是指在数据库或搜索引擎中,当数据被删除或更新时,原有的索引中会留下一些无效的引用或信息残留。这些残留的信息就是索引碎片。

举个例子,假设有一个包含1000条数据的数据库表。当你删除其中的一些数据时,数据库会标记这些删除的数据为无效,但实际上它们仍然占据着物理存储空间。这些无效的数据所占据的存储空间,就是索引碎片。

索引碎片的存在会导致数据库查询和搜索的性能下降。因此,在数据库维护过程中,需要定期进行索引碎片的整理和优化,以提高查询效率和性能。通常的处理方式包括重建索引或进行碎片整理操作,以清理无效的索引引用,优化存储空间的利用。

进行索引碎片整理的具体方法和步骤可以因数据库管理系统的不同而有所差异。以下是一般常用的碎片整理方法:

  1. 重建索引(Rebuilding Index):该方法会删除现有的索引,并重新构建一个全新的索引。这个过程会消除索引碎片,提高索引的性能。但是,由于需要重新构建整个索引,这个过程可能会比较耗时,在数据库运行期间可能对性能有一定影响。
  2. 重新组织索引(Reorganizing Index):该方法不会删除现有的索引,而是重新组织索引中的数据页,使其更加紧凑和有序。这个过程会消除部分索引碎片,并优化索引的存储。相比于重建索引,重新组织索引的过程开销较小,对数据库的性能影响较小。
  3. 压缩数据库表(Table Compression):有些数据库管理系统提供了表级别的压缩功能,可以减少数据在磁盘上的存储空间,从而间接降低索引碎片的发生。通过将碎片整理和数据压缩结合起来,可以同时提高查询性能和存储效率。

在实际操作中,你可以参考数据库管理系统的官方文档或使用相关的管理工具来执行索引碎片整理操作。一般建议在数据库负载较轻的时候进行碎片整理,以最小化对数据库性能的影响。另外,定期进行碎片整理也是保持数据库性能稳定的重要步骤之一。

在 SQL Server 中,可以使用以下方法来进行索引碎片整理:

  1. 重建索引(Rebuild Index): ALTER INDEX [索引名] ON [表名] REBUILD;

例如,如果要重建名为 “IX_Products_Stock” 的索引,可以执行以下语句: ALTER INDEX IX_Products_Stock ON Products REBUILD;

  1. 重新组织索引(Reorganize Index): ALTER INDEX [索引名] ON [表名] REORGANIZE;

例如,如果要重新组织名为 “IX_Products_Stock” 的索引,可以执行以下语句: ALTER INDEX IX_Products_Stock ON Products REORGANIZE;

  1. 压缩数据库表(Table Compression): ALTER TABLE [表名] REBUILD WITH (DATA_COMPRESSION = [压缩类型]);

压缩类型可以是 NONE(无压缩)、ROW(行级压缩)或 PAGE(页级压缩)。例如,如果要对名为 “Products” 的表进行页级压缩,可以执行以下语句: ALTER TABLE Products REBUILD WITH (DATA_COMPRESSION = PAGE);

需要注意的是,以上操作可能需要在具备足够权限的用户或数据库管理员账户下执行。此外,更具体的索引整理策略需要根据实际情况进行选择,如何选择重建索引或重新组织索引,以及何时执行碎片整理等,需要综合考虑数据库的负载情况和维护需求。