SQL 查询优化：深入探讨与综合案例（合适的索引：单列、复合、全文、聚簇索引；避免 SELECT *、使用 LIMIT 、免使用子查询，使用 JOIN 替代、分而治之、SQL 优化案例：综合实践）

胡耀超

于 2024-09-29 17:39:54 发布

阅读量648

点赞数 16

分类专栏： SQL面试常见问题文章标签： sql 数据库 mybatis MyBatisPlus mysql

本文链接：https://blog.csdn.net/hyc010110/article/details/142640150

版权

SQL面试常见问题专栏收录该内容

4 篇文章 0 订阅

订阅专栏

在软件开发中，SQL 查询的优化是保证应用性能和可扩展性的重要一环。无论是处理简单的 SELECT 查询还是复杂的 JOIN 和聚合操作，优化 SQL 查询能够有效减少数据库负载，提升应用的响应速度。本篇文章将全面、深入地探讨 SQL 查询优化的技巧、对比各种方法的利弊，并通过综合案例展示如何实践这些优化策略。

一、SQL 查询优化的总体原则

SQL 查询优化涉及到数据库设计、索引策略、查询编写技巧等多个方面。其核心目标是减少查询时间、降低资源消耗。以下是几个重要的优化原则：

减少扫描范围：优化 SQL 查询的第一步是减少数据库的扫描范围，如限制查询的行数（LIMIT）、避免不必要的全表扫描（通过索引等）。
充分利用索引：使用合适的索引结构能极大提高查询速度，尤其是在 WHERE、JOIN、ORDER BY、GROUP BY 中使用的列上。
减少数据传输量：尽量只查询需要的字段，避免 SELECT *，这样可以减少数据传输量和内存占用。
避免冗余计算：对于重复的计算或者查询结果，考虑缓存结果，避免多次重复计算或查询。
查询分解：对于复杂查询，尝试将其拆解为多个简单的查询，这样可以减少单个查询的复杂性，提升效率。

二、SQL 查询优化的主要技术

1. 选择合适的索引

索引是优化 SQL 查询最直接、有效的方法之一。它可以极大地加快 SELECT 查询的速度，但不当的索引设计也可能导致更新和插入操作的性能下降。

类型	适用场景	优点	缺点
单列索引	单个列查询、过滤条件	简单有效	只能作用于一个列
复合索引	多个列组合查询	可以同时加速多个条件查询	插入和更新成本增加
全文索引	文本搜索场景	支持复杂的全文检索	占用更多存储空间
聚簇索引	高频查询、排序场景	查询速度极快	插入、更新代价高

在数据库优化中，选择合适的索引类型对于提升查询性能至关重要。我们来逐一介绍单列索引、复合索引、全文索引和聚簇索引，并通过每种索引的应用场景和案例，展示它们如何影响查询性能。

1.1 单列索引

适用场景：单列索引是针对表中的单个字段创建的索引，适用于针对该列的简单查询、过滤条件（如 WHERE 子句）。

优点	缺点
简单有效，能加速基于该字段的查询	只能作用于一个列，无法处理多条件查询

案例：
假设我们有一个用户表 users，需要经常查询用户的名字：

CREATE INDEX idx_user_name ON users (name);

-- 查询名字为 'zs' 的用户
SELECT * FROM users WHERE name = 'zs';

使用单列索引 idx_user_name 后，数据库不再需要全表扫描，而是通过索引快速定位名字为 ‘zs’ 的记录。查询时间从全表扫描的 2 秒缩短为 0.1 秒。

1.2 复合索引

适用场景：复合索引是针对多个列组合创建的索引，适用于涉及多个列的复杂查询，特别是 WHERE 条件中多个列同时出现的情况。

优点	缺点
可以加速涉及多个条件的查询	增加表的维护成本（插入、更新的代价增加）

案例：
假设我们经常需要根据用户名和创建时间进行查询，可以在 name 和 created_at 上创建复合索引：

CREATE INDEX idx_user_name_created ON users (name, created_at);

-- 查询名字为 'zs'，并且创建时间为某个区间的用户
SELECT * FROM users WHERE name = 'zs' AND created_at >= '2023-01-01';

通过复合索引，数据库可以同时优化 name 和 created_at 两个条件的查询。相比单列索引，复合索引能更有效地处理这种多条件组合查询。

注意：复合索引中的列顺序很重要，查询中首先使用的列应该在复合索引的前列位置。

1.3 全文索引

适用场景：全文索引专门用于文本数据的搜索场景，如文章、评论等的全文检索。普通索引在处理这种模糊匹配和搜索时效率较低，而全文索引可以提供更高效的检索。

优点	缺点
支持复杂的文本搜索，如模糊匹配、词语相似度	占用更多存储空间，插入和更新性能会受到影响

案例：
假设我们有一个 posts 表，存储博客文章的内容，需要对文章内容进行全文检索：

CREATE FULLTEXT INDEX idx_post_content ON posts(content);

-- 查询包含关键字 'database' 的所有文章
SELECT * FROM posts WHERE MATCH(content) AGAINST ('database');

通过全文索引 idx_post_content，可以快速检索包含特定关键字的文章，相比普通索引或模糊查询（如 LIKE '%database%'），性能提升显著。

1.4 聚簇索引

适用场景：聚簇索引是将表中的数据行实际存储在索引结构中。每个表只能有一个聚簇索引，通常使用主键创建聚簇索引。它适用于频繁的范围查询、排序查询等场景。

优点	缺点
查询速度极快，特别是排序或范围查询场景	插入、更新代价较高，因数据存储顺序影响性能

案例：
假设我们有一个 orders 表，按 order_id 字段（主键）创建了聚簇索引：

-- 假设 order_id 是主键，自动创建聚簇索引
CREATE TABLE orders (
    order_id INT PRIMARY KEY,
    customer_id INT,
    order_date DATE,
    total_amount DECIMAL(10, 2)
);

-- 查询最近一段时间内的订单
SELECT * FROM orders WHERE order_date BETWEEN '2023-01-01' AND '2023-06-01' ORDER BY order_date;

聚簇索引将 orders 表的数据按照 order_id 排列，查询时直接从排序好的数据中提取记录，特别适合频繁的范围查询或排序查询。

小结

这四种索引在不同的场景下各有优劣：

单列索引：适用于简单的单条件查询。
复合索引：在多条件查询时提供更优的性能。
全文索引：适用于文本数据的复杂检索。
聚簇索引：适合频繁的范围或排序查询。

开发者在实际应用中，需要根据查询模式选择合适的索引，避免盲目增加索引而导致数据库维护成本的增加。

2. 避免 SELECT *

查询不必要的列会增加数据库的 I/O 开销、网络传输以及内存使用。因此，应该明确选择所需字段。

*SELECT 的影响**	指定字段的查询
消耗更多的内存和网络资源	只传输和处理需要的数据
可能导致不必要的索引失效	索引能够更高效地执行

案例：

-- 不推荐
SELECT * FROM orders WHERE order_id = 12345;

-- 推荐
SELECT order_id, order_date, customer_id FROM orders WHERE order_id = 12345;

3. 使用 LIMIT 优化查询

对于数据量非常大的表，若只需要查询部分数据，使用 LIMIT 可以有效地减少数据库返回的数据量，提升响应速度。

全表查询	LIMIT 优化
查询和返回所有记录	只返回指定数量的记录，减少 I/O

案例：

SELECT * FROM customers ORDER BY created_at DESC LIMIT 100;

这样查询只返回前 100 条结果，减少了数据库的负担。

4. 避免使用子查询，使用 JOIN 替代

子查询常常需要嵌套多次，数据库引擎不得不多次执行嵌套查询，导致性能问题。可以通过 JOIN 来替代子查询，提升查询效率。

子查询	JOIN 优化
每次需要重新计算嵌套查询	JOIN 可以直接在两个表中查找关系
适合小型查询	JOIN 在大数据量下性能更好

案例：

-- 不推荐使用子查询
SELECT * FROM orders WHERE customer_id IN (SELECT customer_id FROM customers WHERE country = 'China');

-- 推荐使用 JOIN
SELECT orders.* FROM orders JOIN customers ON orders.customer_id = customers.customer_id WHERE customers.country = 'China';

5. 查询分解：分而治之

有时，复杂的 SQL 查询可能导致执行时间过长，尤其是涉及大量的 JOIN、子查询或聚合操作。将复杂查询分解为多个简单的查询，可以降低单个查询的复杂度。

单一复杂查询	分解为多个简单查询
SQL 引擎可能难以优化复杂查询	简单查询可以更容易优化
一次返回大量数据	分步执行，减少单次查询的压力

案例：

-- 不推荐
SELECT customer_id, SUM(order_value) FROM orders WHERE order_date > '2023-01-01' GROUP BY customer_id HAVING SUM(order_value) > 1000;

-- 推荐（分解为两步）
CREATE TEMPORARY TABLE high_value_customers AS
SELECT customer_id, SUM(order_value) AS total_order_value FROM orders WHERE order_date > '2023-01-01' GROUP BY customer_id;
SELECT * FROM high_value_customers WHERE total_order_value > 1000;

三、SQL 优化案例：综合实践

假设我们有一个电商系统，需要查询最近一个月内订单金额超过 500 美元的客户列表，并按客户名排序。订单和客户的关系存储在 orders 和 customers 表中。

初始查询：

SELECT customers.name, SUM(orders.total_amount) AS total
FROM customers
JOIN orders ON customers.customer_id = orders.customer_id
WHERE orders.order_date >= '2024-09-29'
GROUP BY customers.name
HAVING total > 500
ORDER BY customers.name;

这个查询虽然能够返回正确结果，但由于数据量较大，执行时间超过了 10 秒。

优化步骤：

使用索引：在 order_date 和 customer_id 上建立索引，减少扫描时间。
查询分解：先查询出符合条件的订单，再与客户表做 JOIN。
减少数据传输量：只选择需要的字段，避免 SELECT *。

优化后查询：

-- 1. 创建索引
CREATE INDEX idx_order_date ON orders(order_date);
CREATE INDEX idx_customer_id ON orders(customer_id);

-- 2. 先查询出符合条件的订单
CREATE TEMPORARY TABLE recent_orders AS
SELECT customer_id, SUM(total_amount) AS total
FROM orders
WHERE order_date >= '2024-09-29'
GROUP BY customer_id
HAVING total > 500;

-- 3. 与客户表做 JOIN
SELECT customers.name, recent_orders.total
FROM customers
JOIN recent_orders ON customers.customer_id = recent_orders.customer_id
ORDER BY customers.name;