【KWDB 创作者计划】_技术解读（6）：如何让查询更快？索引结构与优化器策略全面解析

会飞的Anthony

已于 2025-04-15 20:32:33 修改

阅读量1k

点赞数 17

分类专栏：信息系统数据库云服务文章标签： KWDB 数据库

于 2025-04-15 20:32:32 首次发布

本文链接：https://blog.csdn.net/ljd939952281/article/details/147257770

版权

信息系统同时被 3 个专栏收录

259 篇文章

订阅专栏

云服务

19 篇文章

订阅专栏

数据库

18 篇文章

订阅专栏

快速查询，是每一款数据库产品的立身之本。在数据量爆炸、分析维度复杂的 AIoT 场景中，“查询快”并不是一句口号，而是对底层索引设计、优化器策略、执行计划调度等多个模块协同的硬核要求。本篇文章将深入解读 KWDB 查询加速背后的两大核心支柱：索引结构 与 查询优化器，并结合源码与典型案例，分析其如何助力大规模数据高效查询。

一、查询为什么慢？先看数据量与复杂度

AIoT 场景中常见的查询请求特点：

数据量大：TB 级数据存储常态化；
查询频繁：看板、告警、实时计算对延迟极敏感；
组合条件多：设备属性 + 标签 + 时间区间 + 聚合；
关联复杂：结构化数据与时序数据的 JOIN 操作频繁。

例如：

SELECT device_id, avg(temperature)
FROM ts_metrics
WHERE time > now() - interval '1h'
  AND device_type = 'A型'
  AND location = '杭州'
GROUP BY device_id;

这类查询如果没有索引或优化策略加持，执行起来将会非常缓慢。

二、KWDB 中的索引结构设计

KWDB 为了支持多模数据查询优化，设计了如下三类索引体系：

1. 时间索引（Time Index）

作用：加速时间范围查询（常用于 WHERE time > …）

实现方式：按时间区间划分数据分区 + 元数据范围索引

struct TimeIndex {
    Timestamp min_time;
    Timestamp max_time;
    FileBlockRef location;
};

执行计划中可快速定位时间落在哪些文件/区间。

2. 标签倒排索引（Inverted Index）

作用：加速标签/属性字段的值过滤，如：

WHERE device_type = 'A型' AND factory = 'F1'

实现方式：为结构化字段构建倒排映射：

"A型" → [row_id_1, row_id_7, row_id_12]
"F1"  → [row_id_1, row_id_3, row_id_8]

位于路径：

engine/index/inverted_index.cc

查询时利用布尔操作（AND/OR）对倒排列表进行合并。

3. 主键索引（Primary Index）

作用：设备主键字段快速定位，如：

SELECT * FROM ts_metrics WHERE device_id = 'dev_1001'

实现方式：基于 RocksDB 的前缀索引机制 + LSM 树结构

三、优化器做了什么事？看执行计划的前后变化

KWDB 的优化器位于逻辑计划与物理执行计划之间，核心目标是：

改写查询计划，使其更高效
将条件、聚合、连接等逻辑提前推送
裁剪无用字段，减少 IO 与计算量

执行流程如下：

graph TD
    A[SQL AST] --> B[Logical Plan]
    B --> C[Query Optimizer]
    C --> D[Physical Plan]
    D --> E[执行器执行]

四、关键优化策略一览

1. 谓词下推（Predicate Pushdown）

将 WHERE 条件提前下推到最底层扫描节点：

SELECT * FROM ts_metrics
WHERE time > now() - 10m AND location = '杭州'

原本：

Scan → Join → Filter

优化后：

Filter(location) → Scan(ts_metrics)

实现路径：

planner/optimizer/predicate_pushdown.cc

2. 投影裁剪（Projection Pruning）

只读取 SELECT 中的字段，避免全字段扫描。

SELECT device_id FROM ts_metrics

优化器会自动排除温度、湿度等无关字段，从底层读取阶段就进行列裁剪。

3. 索引选择策略

优先使用时间索引
有倒排索引字段则走倒排过滤
多条件并存时采用“选择性最高”的字段先过滤

这类似传统优化器中的 索引选择（Index Selection）。

4. JOIN 优化：驱动表选择 + 广度裁剪

在跨模 JOIN 场景中：

SELECT * FROM ts_metrics t
JOIN device_info d ON t.device_id = d.id
WHERE d.type = 'B型'

优化器会自动将 device_info 作为驱动表，先过滤，再驱动时序表进行匹配，从而减少数据扫描量。

五、实战示例：开启优化 vs 不开启优化

使用 EXPLAIN 查看计划变化（模拟语法）：

EXPLAIN SELECT device_id, AVG(temp)
FROM ts_metrics
WHERE time > now() - interval '30m'
AND device_type = '智能水表'
GROUP BY device_id;

优化前计划（伪示例）：

Full Table Scan → GroupBy

优化后计划：

Time Range Filter (Partition A1-A4)
↓
Inverted Index Filter on '智能水表'
↓
Partial Aggregation → Merge

查询耗时减少 85%。

六、源码阅读建议

模块	文件路径	内容
查询优化器入口	`planner/query_optimizer.cc`	执行优化主流程
谓词下推实现	`optimizer/predicate_pushdown.cc`	WHERE 条件处理
投影裁剪逻辑	`optimizer/column_prune.cc`	字段选择逻辑
索引调度器	`planner/index_selector.cc`	决定走哪个索引

七、小结：KWDB 查询优化核心能力

模块	说明
时间索引	快速锁定时间段
倒排索引	高效过滤标签类字段
主键索引	精准定位设备主数据
优化器	推理重写查询计划，提升执行效率
物理执行计划	合理调度执行器，充分利用资源