数据库索引-MySQL的索引

最新推荐文章于 2022-01-01 21:29:33 发布

George_Fal

最新推荐文章于 2022-01-01 21:29:33 发布

阅读量112

点赞数

原文链接：https://my.oschina.net/zho/blog/3020918

版权

为什么80%的码农都做不了架构师？>>>

数据库索引-MySQL索引结构和性能

数据库索引可加快数据检索操作，但是我们也为这些好处付出了代价。在本文中，我们将关注MySQL索引背后的结构。通过使用大型数据集来测试数据库性能，我会测试同一数据库的两个版本：一个具有索引，另一个没有。这是我们关于数据库索引的系列文章的第二篇。第一篇请单击此处。

索引使用什么数据结构？

> MySQL支持几种不同的索引类型。最重要的是BTREE树和HASH。这些类型也是其他DBMS中最常见的类型。

在我们开始描述索引类型之前，让我们快速回顾一下最常见树的节点类型：

根节点 - 树结构中的最顶层节点
子节点 - 另一个节点（父节点）指向的节点
父节点 - 指向其他节点（子节点）的节点
叶节点 - 没有子节点的节点（位于树结构的底部）
内部节点 - 所有“非叶子”节点，包括根节点
外部节点 - 叶节点的另一个名称

二叉搜索树(BST)

binary-search-tree

上图是一个二叉搜索树（BST）结构，这些结构不是数据库索引使用的数据结构，但数据库使用的树结构（B-Tree和B + Tree）和BST相似的。

BST是二叉树，其中节点被排序。在上图中，我们看到节点X左侧的值小于X，节点X右侧的值更大。这就是任何BST的组织方式。

当我们在BST中搜索值时，我们从根节点开始，并将搜索到的值与根节点的值进行比较。如果搜索的值低于根值，我们将转到左子树。相反，则去右边的子树查找。如果我们找到了对应的值，完成查找。如果到达叶节点而没有找到我们的值，就能知道所查找的值不在这个BST的树中。

向BST添加新值就像搜索值一样。（一旦我们为我们的值找到合适的位置，当然，过程会发生变化。）例如，如果我们要添加值“30”，我们会将其添加为节点“31”的左子节点（30）大于27，所以我们向右走; 30小于35，所以我们向左走; 30小于31，所以我们再向左走。）

当想要从BST中删除一个值时，情况就更复杂了。在某些情况下，甚至可能需要重新排列树。有三种可能的情况：

删除没有子节点的节点 - 我们只需从BST中删除该节点。在我们的例子中，这些是节点“10”，“19”，“31”和“42”。
删除具有一个子节点的节点 - 我们将用子节点替换已删除的节点。如果节点“31”在左子树中具有“30”作为子节点并且我们将其删除，则我们将简单地将“31”替换为“30”。
删除具有两个子节点的节点 - 这是最复杂的情况。在这种情况下，我们将找到已删除节点的右子树中的最小元素，并将其放在已删除节点的位置。因此，如果我们删除节点“27”，我们将在右侧子树中查找最小值，即“31”。我们将节点“27”替换为节点“31”。

B-Tree

B-Tree是大多数MySQL存储引擎的基本索引结构。 B树中的每个节点具有d至2d个值，并且每个节点中的值都已排序，每个节点具有0到2d + 1个子节点。每个子节点都附加在值之前，之后或之间。（在上图中，值“9”和“12”介于值“7”和“16”之间。） B-Tree中的值以与二叉搜索树中的值类似的方式排序。值“X”左侧的子节点的值小于X;值“X”右侧的子节点的值大于X（参见图片）。

与BST相比，B树是平衡树：树的所有分支具有相同的长度。

在B树中搜索值也类似于在BST中搜索。首先，我们检查根节点中是否存在该值。如果不存在，则选择适当的子节点，并在该节点中查找值。

在B树中添加和删除值通常不会创建新节点：每个节点中的值的数量可以变化。当然，这意味着我们将有一些空的空间，因此B树将需要比更密集的树更多的磁盘空间。

添加值必须保持值的顺序和树的平衡。首先，我们将找到应添加值的叶节点。如果叶节点中有足够的空间，我们只需添加该值;结构和树深度不会改变。

在我们的示例中，添加值“22”将非常简单。我们只需将其添加到第三个叶节点。如果我们想要添加值“4”，我们将分割第一个叶节点。这总是在溢出的情况下发生。值“1”和“2”将形成一个新的叶节点（左侧节点）;值“4”将是中间节点（并插入到父节点中），而值“5”和“6”将形成另一个新的叶节点（右侧节点）。

如果在那里发生溢出，我们将以相同的方式拆分父节点。在极端情况下，我们必须拆分根节点，树深度会增加。

当我们想要从B树中删除一个值时，我们将找到该值并将其删除。如果该删除导致下溢（存储在节点中的值的数量太少），我们将必须将节点合并在一起。这与我们添加值时发生的情况完全相反。我们将该节点与包含最多值的邻居节点合并。如果新合并的节点包含太多的值（溢出），我们将它分成左，中，右，并重新排列树结构。

当在数据库索引中使用B-Tree时，每个节点都保存索引值和指向它来自的行的指针。例如，如果索引位于列id上，则树将同时保存值“7”和指向id = 7的行的指针。当我们搜索id = 7的行时，我们可以在B-Tree中快速找到值7，然后按照指针获取实际的行。

重要一点是，在B树结构中，每个节点都包含键值，指向值的指针以及指向子节点的指针，子节点的值小于父节点中的值。当然，叶节点不指向任何子节点。使用B-Tree索引，我们可以使用相等运算符（=或<=>），将产生范围（>，<，> =，<=，BETWEEN）和LIKE运算符的运算符。我们也可以在多个列上创建索引。如果我们在（first_name，last_name）对上创建索引，我们可以使用任一术语进行搜索，但是当我们仅使用其中一个属性时，索引也会起作用。最后，值得注意的是，当最常访问的数据更接近根节点时，B树将表现得更好。

B+Tree

B+Tree结构类似于B-Tree结构。区别是：

内部节点只存储值;它们不存储指向实际行的指针。叶节点存储值和行指针。这减少了内部节点的大小，允许在同一内存页面上存储更多节点。反过来，这增加了分支因子。随着分支因子的增长，树的高度会降低，从而导致更少的磁盘I/O操作。
B+Tree中的叶节点是链接的，因此我们只需一次传递就可以进行全扫描。当我们需要查找给定范围内的所有数据时，这非常有用。因为行指针存储在内部节点和叶节点中，这在B树中是不可能的。
在B+Tree结构中执行删除操作比在B树中更容易。这是因为我们不需要从内部节点中删除值。在B+Tree结构中，我们将重复相同的值;在B树结构中，每个值都是唯一的。在B+Tree中，我们将在叶节点中存储一个值和一个数据指针，但该值也可以存储在内部节点中（用于指向子节点）。
B-Tree的优点是我们可以很快找到靠近根的值，而在B+Tree中，我们需要一直向下查看叶节点的任何值。

InnoDB存储引擎使用B+Tree结构来存储索引。

Hash索引

Hash-Index

散列索引与散列技术直接相关。如上图，在左侧，我们看到用于查找数据的一组键值。在这种情况下，它们是数值。哈希函数用于计算存储实际数据桶的地址。这将为我们提供与每个键值相关的记录的位置。

值基于散列函数的值存储在存储桶中。当我们想要搜索一个值时，我们将使用哈希函数来计算可以存储数据的地址。我们将在桶中查找数据。如果我们找到它，我们就完成了。如果我们没有找到我们的价值，那就意味着它不在索引中。

添加新值的工作方式类似：我们将使用哈希函数来计算我们存储数据的地址。如果该地址已被占用，我们将添加新桶并重新计算哈希函数。再一次，我们将使用整个键作为我们函数的输入。结果是我们可以找到所需数据的实际地址（在磁盘存储器中）。

更新或删除值包括首先搜索值，然后对该内存地址应用所需的操作。

在测试相等性（=或<=>）时，哈希索引非常快。这是因为我们使用的是整个密钥而不仅仅是其中的部分。当我们想要查找范围，使用<或>运算符或加速子句的ORDER BY部分时，Hash索引无法帮助我们。

如果我们要指定索引结构，我们需要在CREATE INDEX语句中添加USING BTREE或USING HASH。

性能测试

数据库架构及预期结果

Database Model

我们将测试两个相同数据库的性能，一个使用索引，另一个不使用索引。为简单起见，我们将这些称为索引和未索引的数据库，即使两个数据库的主键都有索引。两个数据库的结构在上面的模型中给出，并在本系列的第1部分中详述。

在测试数据库中，我在book，book_details，book_genre和book_author表中添加了1,000,000条记录。在第一篇文章中，我们使用以下语句创建了三个索引：

CREATE INDEX book_details_idx_1 ON book_details (book_title);
CREATE INDEX author_idx_1 ON author (first_name,last_name);
CREATE INDEX author_idx_2 ON author (last_name,first_name);

要从第二个数据库中删除这些索引，我们使用以下语句：

DROP INDEX book_details_idx_1 ON book_details;
DROP INDEX author_idx_1 ON author;
DROP INDEX author_idx_2 ON author;

预期结果：

使用索引的数据库也应该使用更多的磁盘空间。请记住，索引是索引属性和指向记录的指针的结构和存储副本。期望用于查找和排序数据的查询（SELECT，ORDER BY）在索引数据库上的执行速度比未索引的数据库快。但是，当我们使用INSERT，DELETE和UPDATE查询时，未索引的数据库应该会更好。

数据库占用大小

每个MySQL服务器实例都存储每个数据库的所有相关数据在information_schema数据库中。所以我们可以查询到有关server, tables, columns, views, triggers, 等所有相关的数据。

查询information_schema数据库以查找两个示例数据库的大小：

SELECT
    ROUND(SUM(information_schema.tables.data_length + information_schema.tables.index_length) / (1024 * 1024), 2) AS "MB"
 
FROM information_schema.tables
WHERE information_schema.tables.table_schema = "indexes_performance";

正如所料，索引数据库的大小为315 MB，而未索引的数据库为289 MB。这可能看起来不是很大差异，但它大约是10％，我们只使用了三个索引。

使用以下查询更详细地查看这两个数据库：

SELECT
    a.table_name,
    a.MB AS "table size; data + index (MB) / INDEX",
    a.index_MB AS "index size (MB) / INDEX",
    b.MB AS "table size; data + index (MB) / NO INDEX",
    b.index_MB AS "index size (MB) / NO INDEX"
 
FROM
 
(
SELECT
    information_schema.tables.table_name AS table_name,
    ROUND(SUM(information_schema.tables.data_length + information_schema.tables.index_length) / (1024 * 1024), 2) AS "MB",
    ROUND(SUM(information_schema.tables.index_length) / (1024 * 1024), 2) AS "index_MB"
 
FROM information_schema.tables
WHERE information_schema.tables.table_schema = "indexes_performance"
GROUP BY information_schema.tables.table_name
) AS a
 
LEFT JOIN
 
(
SELECT
    information_schema.tables.table_name AS table_name,
    ROUND(SUM(information_schema.tables.data_length + information_schema.tables.index_length) / (1024 * 1024), 2) AS "MB",
    ROUND(SUM(information_schema.tables.index_length) / (1024 * 1024), 2) AS "index_MB"
 
FROM information_schema.tables
WHERE information_schema.tables.table_schema = "indexes_performance_no"
GROUP BY information_schema.tables.table_name
) AS b
 
ON a.table_name = b.table_name

结果如下：

Database Size

第一列是表名，对于两个数据库都是相同的。第二列和第三列属于索引数据库，而第四列和第五列属于未编制索引的数据库。第二列和第四列是数据大小和索引大小的总和，而第三列和第五列是索引大小。

正如所料，index_details和author表在索引数据库中更大。我们还可以看到，即使在没有添加自定义索引的数据库中，也为索引保留了大约110 MB。这是在主键属性上创建的索引的大小。数据库大小的几乎所有差异都来自book_details表上添加的自定义索引。

查询速度

我们将使用相同的数据库，但这次我们将测量执行三个SELECT查询所需的时间，以及一个包含许多数据更改的存储过程。

第一个查询非常简单：

SET @start_time = NOW();
 
SELECT book_details.book_title, COUNT(*) AS result
FROM book_details
GROUP BY book_details.book_title;
 
SET @end_time = NOW();
 
SELECT TIMEDIFF(@end_time, @start_time) AS difference;

要返回执行查询所需的时间，请在查询之前和之后立即设置@start_time和@end_time。他们的不同将告诉我们这项行动需要多长时间。索引数据库返回的结果比未索引的数据库快17倍。未索引的版本被迫对信息进行顺序搜索，以便考虑时间差别。

提示：MySQL支持以下语句：

DESCRIBE - 通常用于描述表结构
EXPLAIN和EXPLAIN EXTENDED - 用于描述查询执行计划
SHOW WARNINGS - 用于在执行观察语句后显示有关条件（错误，警告等）的信息 DESCRIBE，EXPLAIN和EXPLAIN EXTENDED放在查询的前面。显示警告应该放在它之后。

我们将使用的第二个查询更复杂，我们可以预期两个数据库的执行时间都会增加：

SET @start_time = NOW();
 
SELECT author.first_name, author.last_name, COUNT(*)
FROM book_details, book_author, author
WHERE book_details.id = book_author.book_details_id
AND book_author.author_id = author.id
GROUP BY author.first_name, author.last_name
ORDER BY author.first_name, author.last_name;
 
SET @end_time = NOW();
 
SELECT TIMEDIFF(@end_time, @start_time) AS difference;

在这种情况下，索引数据库给我们的结果比未索引的数据库快两倍。

我们稍微修改第二个SELECT查询，添加一个选择条件：

SET @start_time = NOW();
 
SELECT author.first_name, author.last_name, COUNT(*)
FROM book_details, book_author, author
WHERE author.first_name = "Ernest"
AND book_details.id = book_author.book_details_id
AND book_author.author_id = author.id
GROUP BY author.first_name, author.last_name
ORDER BY author.first_name, author.last_name;
 
SET @end_time = NOW();
 
SELECT TIMEDIFF(@end_time, @start_time) AS difference;

索引数据库再次返回其结果的速度比未编制索引的数据库快两倍。这是因为我使用了索引列; GROUP BY和ORDER BY子句在可用时使用索引。当然，该索引必须包含与GROUP BY和ORDER BY子句中使用的相同顺序的相同列。

所有三个测试用例的结果都符合预期。当我们使用SELECT查询时以及需要ORDER返回值时，索引会显着提高性能。